古代办公室里简直任何一项工作都会用到Excel,每关上一个job deion,咱们都会看到一句“要求把握Excel”。对于程序员来说最好用的数据分析肯定是Python中最罕用的数据分析包Pandas了。

初识Pandas

Pandas是一个Python的外围数据分析反对库,它提供了弱小的一维数组和二维数组解决能力,其十分善于与解决二维表构造,带行列标签的矩阵数据,工夫序列数据。

Pandas提供的两个次要数据结构一维数组(Series)和二维数组(DataFrame)强力的撑持着当今金融、统计、社会科学、工程等诸多畛域的数据分析工作。

通过Pandas咱们能够不便的操作数据的增、查、改、删、合并、重塑、分组、统计分析,此外Pandas还提供了十分成熟的I/O工具,用于读取文本文件,excel文件,数据库等不同起源数据,利用超快的HDF5格局保留/加载数据。

还有十分重要的一点,pandas是完全免费的开源软件,而且还不受操作系统的限度——在Windows和MacOS上都能跑的溜溜的。

Pandas到底强在哪里?

1、Pandas很快,Pandas是基于numpy开发的,此外Pandas的很多底层算法都通过Cython优化。

2、弱小的包容性,利用Pandas能够将Python或Numpy里不规则的数据结构,轻松转换为DataFrame。

3、灵便、直观的数据处理能力,通过分组、合并、重塑等操作,灵便、直观、便捷的进行数据预处理。

4、业余的统计分析能力,Pandas提供了很多便捷的诸如相关性剖析、时序剖析、描述性统计等数据分析API。

当初的待业局势是:无论你是不是应聘数据相干的岗位,把握pandas无疑都能够减少你的职场竞争力。

心动吗?想学吗?小编这就为大家奉上一节收费Python系列直播课程《轻松应用Pandas玩转Excel》。在本节公开课中咱们将学到Excell的替换、比照、合并,以及QT封装脚本。

设想一下,用Excel加载一个大型数据表格就须要2分钟,一个Vlookup或者求和公式的操作又要用去5分钟,当表格发生变化时,可能还要从新进行计算,而一个简略的Python+pandas脚本就可能把你一个小时的工作量缩短到20秒之内实现。

举例比照

例子一:应用行索引,查看每一个Name的Quality,price汇总数据

1、pandas实现

pd.pivot_table(df, index=['Name'])

运行成果如下:

当咱们只指定index时,就是指定了行标签,pivot_table函数会默认依照平均值,汇总所有的数值字段。因为Account字段被pandas“了解”成了数值类型的(能够通过df.dtypes查看),所以后果中呈现了Account列。下面的后果示意每个Name的Account,Price,Quantity的平均值。

2、Excel实现选中数据区域,插入,数据透视表,将Name字段拉倒“行”区域,Account,Price,Quantity拉入“值”区域,并将三者的字段汇总形式设置为平均值。

整个步骤的流程及运行后果如下图所示:

能够看到Excel默认会有一个汇总行。以Quantity为例,它的“总计”值是所有的Quantity求和之后,除以Name的个数。

如果想用Pandas实现这种成果,能够退出margins=True参数,成果如下,呈现了All行,因为Account和Price是整数,所以all行也是整数,Quantity是小数,相应的All行也是小数。Excel的总计行也能够在“设计”选项卡,“总计”,“对行和列禁用去掉”。

例子二:应用多个行索引,查看每个Manager的每个Rep对应的Account,Price,Quantity汇总值

1、pandas实现

pd.pivot_table(df, index=['Manager', 'Rep'], margins=True)

运行成果如下:

2.Excel实现在后面根底上,将Manager,Rep拉到“行”的地位即可。成果如下图,能够看到,在要害的数值上,两个后果是统一的,只是在模式上有所不同。

为了在模式上更靠近pandas的后果,能够设置透视表的布局。抉择“设计”选项卡,报表布局,抉择“纲要模式显示”即可,成果如上图所示。

仔细观察,发现excel里对每一个Manager都做了汇总。这个能够通过“设计”选项卡,“分类汇总”,“不显示分类汇总”去掉。

**长按辨认
**

获取直播链接/课件/回放

福利:豆花同学为大家精心整顿了一份对于linux和python的学习材料大合集!有须要的小伙伴们,关注豆花集体公众号:python头条!回复关键词“材料合集”即可收费支付!