Python数据分析：pandas常用函数

jiezi

6 年前

pandas 是 python 中的一个数据处理库，同样在使用的时候我们要先输入 import pandas as pd 引入。
1.df = pd.read_csv(“ 文件路径 ”)：这是读取 csv 文件的方法，如果要读取 excel 或其他文档，都有相应的 read 函数。

2.df.dtypes：如果在文件中有字符型数据返回的是 object。

3.df.head(n)：将前 n 行数据显示出来，如果不传入参数则显示前 5 行数据。

4.df.tail(n)：将后 n 行数据显示出来，如果不传入参数则显示后 5 行数据。

5.df.columns：以列表的形式显示数据表的列名。
6.df.shape：以元组的形式显示表中数据的行数和列数。
7.df.loc[n]：返回索引值为 n 的行。
8.df.loc[m][n]：返回索引值为 m 行 n 列的数据。

9.df.loc[m:n]：返回索引值为 m 到 n 的行。
10.df.loc[[m,n,k]]：返回索引值分别为 m,n,k 的行。

11.df[“str”]：返回列名为 str 的这一列。

12.df.columns.tolist()：将列名做成列表。

13.df[“str”]*df[“str”]：两列维度相同，则两列的对应位置相乘。

14.df.sort_values(“str”,inplace=True,ascending=False)：将 str 一列按照降序排列，且得到的数据替换原数据。inplace 表示是否用排序后的数据替代原数据，默认为 False，也就是不替换。ascending 表示排序的顺序，默认为 True，也就是按照升序排列。

15.judge = pd.isnull(df[“str”])：返回 bool 型值，str 这一列的数据是空值返回 True，不是空值返回 False。

16.a[“judge”]：返回 judge 为 True，也就是缺失的数据，这时再调用 len() 函数即可求得缺失数据的个数。

17.df.pivot_table(index=”a”,values=”b”,aggfunc=np.mean)：这是一个很重要的函数，将 b 求平均值，按照 a 的类别进行分类，第三个参数默认为求平均值。

18.df.loc[n,”str”]：定位到第 n 行，列名为 str 处的数据。
19.sort_res.reset_index(drop=True)：将排序后的数据的编号也重新排列，drop 指是否丢弃原数据。运行后的结果与 14 的图对比可以发现，编号已经重新排列了。

20.df.apply()：这是在 pandas 中的自定义函数的使用方法，括号中传入函数名。