共计 1275 个字符,预计需要花费 4 分钟才能阅读完成。
python 是一门非常简单和实用的数据分析工具,咱们晓得其实能够利用 python 对 EXCEL 数据做简略的筛选。明天咱们利用 ETL+Python 的搭配组合,对 EXCEL 数据进行深层次的加工,这一次咱们要做的是高级筛选,请跟着我一起学习吧。
数据源
咱们用电商订单明细表:
EXCEL 筛选
咱们回顾一下上一篇文章里的数据需要,第一个是依据订单日期筛选 2010 年的订单,第二个是依据订单等级去筛选高级的订单,这一次咱们把筛选条件进行降级,减少一个条件:在原先两个筛选条件的根底上,筛选出利润金额前 10 的订单。如果在 EXCEL 里操作的话,能够利用公式或者本身的筛选性能去实现,然而在 python 又是怎么实现的呢?
咱们能够在 pycharm 等软件上写 python 脚本去实现,然而我举荐大家用 Smartbi 智剖析的 ETL 性能去实现,Smartbi 智剖析的 ETL 界面里也提供了 python 脚本的编写页面,并且很多简略的需要通过 ETL 就能实现,无需撰写简单的代码,非常适合编程小白。
加载数据
关上 Smartbi 智剖析里 ETL 界面,咱们先连贯好数据源,我曾经提前把 EXCEL 文件导入到了 Smartbi 智剖析的零碎里,而后把关系数据源拉拽到展示区里,并在左边找到数据源寄存的门路:
加载实现后,咱们能够对数据源进行预览:
条件过滤
当实现了数据连贯后,接下来就能够利用 Smartbi 智剖析 ETL 里自带的 python 脚本对数据进行各种解决,咱们先把 python 的组件拉拽到两头的展示区,并与下面的关系数据源进行相连:
以下脚本是 Smartbi 智剖析自带的脚本,曾经提前装置好了 pandas 和 numpy 的库,前面的函数也写好了一部分代码,只有依据以下脚本进行扩大,便能够在 ETL 上利用 python 进行数据荡涤:
在输出 python 脚本之前,咱们再明确一下要实现的需要,其中后面两个条件是和上次一样的,咱们无需进行改变,间接复制脚本过去即可,如果不懂的能够查看我前一篇文章。第三个条件须要做的是筛选利润额前 10 的订单,这里咱们援用 pandas 中的 sort_values 函数进行排序,原理相似于 SQL 中的 order by,能够将数据集按照某个字段中的数据进行排序,前面接 ascending=False,即对数据进行降序排列,head(10) 代表的是取前 10 的值:
咱们看一下 python 脚本执行后的成果,年份这一列把 2010 年给筛选进去了,订单这一列筛选的是高级的订单,订单利润这一列的数据依照降序把前 10 的数据给筛选进去了:
数据输入
实现 python 的筛选程序后,咱们把执行筛选后的表格进行保留,能够抉择保留在数据库中,也能够保留在数据集里,这里我仍旧抉择数据集的保留形式,因为不便在 EXCEL 里进行调用:
回到 EXCEL 里,点击 EXCEL 插件里的“视图”,在左边会呈现 Smartbi 智剖析的数据集面板界面,点击下拉菜单,便能够找到保留在云端的数据集,也能够间接输出文件名进行搜寻:
点击 EXCEL 工具栏上的“刷新”,数据集里的字段便会显示在 EXCEL 里,咱们就能够利用这些数据在 EXCEL 里进行数据分析了: