数据科学库pandas笔记2 | 乐趣区

对于pandas来说，掌握了Series和DataFrame的基本使用后，pandas还提供了很多高阶的函数与方法可以实现更加高级的功能，使用它们可以提高分析的效率，满足更多的需求。

pandas高阶函数与方法

依旧以一个简单的DataFrame为例：

In [161]: dfOut[161]:  city education  top   avg work_year0   上海        本科    9   8.0        3年1   广州        硕士   15  11.0        2年2   广州        本科   12  10.0     应届毕业生3   北京        本科   13  12.0        2年4   北京        本科   11   8.0        1年

下面的函数或者方法操作都是以这个DataFrame对象为例。

1. 转置方法T
这个方法可以实现行标签和列标签的转置，常用于矩阵运算方面。

In [161]: dfOut[161]:  city education  top   avg work_year0   上海        本科    9   8.0        3年1   广州        硕士   15  11.0        2年2   广州        本科   12  10.0     应届毕业生3   北京        本科   13  12.0        2年4   北京        本科   11   8.0        1年In [162]: df.TOut[162]:            0   1      2   3   4city       上海  广州     广州  北京  北京education  本科  硕士     本科  本科  本科top         9  15     12  13  11avg         8  11     10  12   8work_year  3年  2年  应届毕业生  2年  1年

2. 排序与排名
pandas中的排序有两种，一种是对行或者列索引(sort_index)进行排序，另外一种是按值对一列即Series对象(sort_values)进行排序。

首先从常用的sort_values函数开始，当希望对一个DataFrame进行排序的时候，将一个列或者多个列传递给by参数即可。

In [164]: dfOut[164]:  city education  top   avg work_year0   上海        本科    9   8.0        3年1   广州        硕士   15  11.0        2年2   广州        本科   12  10.0     应届毕业生3   北京        本科   13  12.0        2年4   北京        本科   11   8.0        1年In [165]: df.sort_values(by='avg') # 根据avg进行排序，默认是升序Out[165]:  city education  top   avg work_year0   上海        本科    9   8.0        3年4   北京        本科   11   8.0        1年2   广州        本科   12  10.0     应届毕业生1   广州        硕士   15  11.0        2年3   北京        本科   13  12.0        2年

sort_values()函数默认是升序排序，如果想改为降序排序，只要将ascending参数设置为False即可。

In [166]: df.sort_values(by='avg',ascending=False)Out[166]:  city education  top   avg work_year3   北京        本科   13  12.0        2年1   广州        硕士   15  11.0        2年2   广州        本科   12  10.0     应届毕业生0   上海        本科    9   8.0        3年4   北京        本科   11   8.0        1年

除了根据一列进行排序外，还可以根据多列进行排序，多列排序时传递给by参数的是一个包含多个列索引的列表。

In [168]: df.sort_values(by=['avg','city'])Out[168]:  city education  top   avg work_year0   上海        本科    9   8.0        3年4   北京        本科   11   8.0        1年2   广州        本科   12  10.0     应届毕业生1   广州        硕士   15  11.0        2年3   北京        本科   13  12.0        2年

而基于行索引或者列索引的排序使用sort_index()函数

In [171]: df.index = ['d','a','c','b','e'] # 将行索引改为d,a,c,b,eIn [172]: df Out[172]:  city education  top   avg work_yeard   上海        本科    9   8.0        3年a   广州        硕士   15  11.0        2年c   广州        本科   12  10.0     应届毕业生b   北京        本科   13  12.0        2年e   北京        本科   11   8.0        1年In [173]: df.sort_index() # 根据行索引进行排序Out[173]:  city education  top   avg work_yeara   广州        硕士   15  11.0        2年b   北京        本科   13  12.0        2年c   广州        本科   12  10.0     应届毕业生d   上海        本科    9   8.0        3年e   北京        本科   11   8.0        1年

进行排序之后，你有可能会关心排名，比如这个学生的成绩排名第几。pandas提供了rank函数来计算排名，排名会从1开始一直到数组中有效数据的数量。

In [9]: df.avg.rank() # 根据avg的值进行排名Out[9]:0    1.51    4.02    3.03    5.04    1.5Name: avg, dtype: float64In [10]: df['rank'] = df.avg.rank() # 赋值进数据框，观看友好一点In [11]: dfOut[11]:  city education  top   avg work_year  rank0   上海        本科    9   8.0        3年   1.51   广州        硕士   15  11.0        2年   4.02   广州        本科   12  10.0     应届毕业生   3.03   北京        本科   13  12.0        2年   5.04   北京        本科   11   8.0        1年   1.5

默认是升序排名，改为降序使用ascending=False参数即可。当排名的值有重复值的时候，rank()函数还提供了method参数，选用不同参数有不同的排名方法。

method参数默认是使用平均值计算重复值的排名，即有两个重复值排名是前两位，那么这两个值的排名都是(1+2)/2=1.5
当使用method='max'的时候，重复值会使用最大值的排名，如有4个90分排名1,2,3,4名，那么这四个90的排名都是第四名
当使用method='min'的时候，重复值会使用最小值的排名，如4个90分排名1,2,3,4名，那么这四个90分的排名都是第一名，第5个分数排名第五名
当使用method='first'的时候，重复值的行索引小的会排在前面。

In [14]: df['rank'] = df.avg.rank(ascending=False,method='max')In [15]: dfOut[15]:  city education  top   avg work_year  rank0   上海        本科    9   8.0        3年   5.01   广州        硕士   15  11.0        2年   2.02   广州        本科   12  10.0     应届毕业生   3.03   北京        本科   13  12.0        2年   1.04   北京        本科   11   8.0        1年   5.0In [16]: df['rank'] = df.avg.rank(ascending=False,method='min')In [17]: dfOut[17]:  city education  top   avg work_year  rank0   上海        本科    9   8.0        3年   4.01   广州        硕士   15  11.0        2年   2.02   广州        本科   12  10.0     应届毕业生   3.03   北京        本科   13  12.0        2年   1.04   北京        本科   11   8.0        1年   4.0In [18]: df['rank'] = df.avg.rank(ascending=False,method='first')In [19]: dfOut[19]:  city education  top   avg work_year  rank0   上海        本科    9   8.0        3年   4.01   广州        硕士   15  11.0        2年   2.02   广州        本科   12  10.0     应届毕业生   3.03   北京        本科   13  12.0        2年   1.04   北京        本科   11   8.0        1年   5.0

3. 唯一值与值计数

pandas中提供了一些函数提取Series中的信息，第一个函数是unique()，它可以得到Series中的唯一值数组。第二个是value_counts()它用于计算一个Series中各个值出现的次数。

In [20]: dfOut[20]:  city education  top   avg work_year  rank0   上海        本科    9   8.0        3年   4.01   广州        硕士   15  11.0        2年   2.02   广州        本科   12  10.0     应届毕业生   3.03   北京        本科   13  12.0        2年   1.04   北京        本科   11   8.0        1年   5.0In [21]: df.city.unique()Out[21]: array(['上海', '广州', '北京'], dtype=object)In [22]: df.city.value_counts() # 广州出现次数为2，北京为2，上海为1Out[22]:广州    2北京    2上海    1Name: city, dtype: int64

4. 描述统计信息的汇总
describe()函数用于一次性产生多个汇总统计：

In [23]: df.describe()Out[23]:             top        avg      rankcount   5.000000   5.000000  5.000000 # 计数mean   12.000000   9.800000  3.000000 # 平均数std     2.236068   1.788854  1.581139 # 标准差min     9.000000   8.000000  1.000000 # 最小值25%    11.000000   8.000000  2.000000 50%    12.000000  10.000000  3.000000 # 中位数75%    13.000000  11.000000  4.000000 # 众数max    15.000000  12.000000  5.000000 # 最大值

cumsum用于累加，如想要计算avg的值的累加：

In [25]: dfOut[25]:  city education  top   avg work_year  rank0   上海        本科    9   8.0        3年   4.01   广州        硕士   15  11.0        2年   2.02   广州        本科   12  10.0     应届毕业生   3.03   北京        本科   13  12.0        2年   1.04   北京        本科   11   8.0        1年   5.0In [26]: df.avg.cumsum()Out[26]:0     8.01    19.02    29.03    41.04    49.0Name: avg, dtype: float64In [27]: df['avg_sum'] = df.avg.cumsum()In [28]: dfOut[28]:  city education  top   avg work_year  rank  avg_sum0   上海        本科    9   8.0        3年   4.0      8.01   广州        硕士   15  11.0        2年   2.0     19.02   广州        本科   12  10.0     应届毕业生   3.0     29.03   北京        本科   13  12.0        2年   1.0     41.04   北京        本科   11   8.0        1年   5.0     49.0

对数据进行分段，可以根据数据进行等分，比如根据top数值将数据进行5等分。cut函数是在pandas下，而不是在DataFrame下，使用需要注意。

In [30]: pd.cut(df.top,bins=5)Out[30]:0    (8.994, 10.2]1     (13.8, 15.0]2     (11.4, 12.6]3     (12.6, 13.8]4     (10.2, 11.4]Name: top, dtype: categoryCategories (5, interval[float64]): [(8.994, 10.2] < (10.2, 11.4] < (11.4, 12.6] < (12.6, 13.8] <                                    (13.8, 15.0]]In [31]: df['bins'] = pd.cut(df.top,bins=5)In [32]: dfOut[32]:  city education  top      ...        rank avg_sum           bins0   上海        本科    9      ...         4.0     8.0  (8.994, 10.2]1   广州        硕士   15      ...         2.0    19.0   (13.8, 15.0]2   广州        本科   12      ...         3.0    29.0   (11.4, 12.6]3   北京        本科   13      ...         1.0    41.0   (12.6, 13.8]4   北京        本科   11      ...         5.0    49.0   (10.2, 11.4][5 rows x 8 columns]

cut函数还有个参数是labels，这个参数是标签，生活中类似于把90分以上的分为优秀，70~80分的为良好。可以把在某个档次的数据标记各自的标签。

In [34]: df['labels'] = pd.cut(df.top,bins=5,labels=list('abcde'))In [35]: dfOut[35]:  city education  top   avg work_year  rank  avg_sum           bins labels0   上海        本科    9   8.0        3年   4.0      8.0  (8.994, 10.2]      a1   广州        硕士   15  11.0        2年   2.0     19.0   (13.8, 15.0]      e2   广州        本科   12  10.0     应届毕业生   3.0     29.0   (11.4, 12.6]      c3   北京        本科   13  12.0        2年   1.0     41.0   (12.6, 13.8]      d4   北京        本科   11   8.0        1年   5.0     49.0   (10.2, 11.4]      b