作者：韩信子@ShowMeAI
教程地址：http://www.showmeai.tech/tutorials/33
本文地址：http://www.showmeai.tech/article-detail/146
申明：版权所有，转载请分割平台与作者并注明出处

当咱们提到python数据分析的时候，大部分状况下都会应用Pandas进行操作。本篇为pandas系列的导语，对pandas进行简略介绍，整个系列笼罩以下内容：

图解Pandas外围操作函数大全
图解Pandas数据变换高级函数
Pandas数据分组与操作

本篇为『图解Pandas外围操作函数大全』，解说Pandas进行数据操作和解决的外围数据结构：Series、DataFrame和Index。

一、Pandas Series

Series是一个一维的数组对象，它蕴含一个值序列和一个对应的索引序列。 Numpy中的一维数组也有隐式定义的整数索引，能够通过它获取元素值，而Series用一种显式定义的索引与元素关联。
显式索引让Series对象领有更强的能力，索引能够是整数或别的类型（比方字符串），索引能够反复，也不须要间断，自由度十分高。

pandas.Series(data, index, dtype, copy)

1.1 从numpy array创立Series

如果数据是ndarray，则传递的索引必须具备雷同的长度。如果没有传递索引值，那么默认的索引将是范畴(n)，其中n是数组长度，即 [0,1,2,3…,range(len(array))-1] 。

pandas.Series(np.array([47, 66, 48, 77, 16, 91]))

1.2 从字典创立Series

字典(dict)能够作为输出传递。如果没有指定索引，则按排序程序获得字典键以结构索引。如果传递了索引，索引中与标签对应的数据中的值将被拉出。

pandas.Series({‘a’:47, ‘b’:66, ‘c’:48, ‘d’:77, ‘e’:16, ‘f’:91,})

1.3 Series数据的拜访

通过各种形式拜访Series数据，系列中的数据能够应用相似于拜访numpy中的ndarray中的数据来拜访。

data
data[0]
data[ :3]
data[0:3]
data[2:4]
data[4:]

1.4 Series的聚合统计

Series有很多的聚合函数，能够不便的统计最大值、求和、平均值等

二、DataFrame(数据帧)

DataFrame是Pandas中应用最频繁的外围数据结构，示意的是二维的矩阵数据表，相似关系型数据库的构造，每一列能够是不同的值类型，比方数值、字符串、布尔值等等。

DataFrame既有行索引，也有列索引，它能够被看做为一个共享雷同索引的Series的字典。它的列的类型可能不同，咱们也能够把Dataframe设想成一个电子表格或SQL表。

pandas.DataFrame(data, index, columns, dtype, copy)

2.1 从列表创立DataFrame

从列表中很不便的创立一个DataFrame，默认行列索引从0开始。

s = [
[47, 94, 43, 92, 67, 19],
[66, 52, 48, 79, 94, 44],
[48, 21, 75, 14, 29, 56], 
[77, 10, 70, 42, 23, 62], 
[16, 10, 58, 93, 43, 53],
[91, 60, 22, 46, 50, 41],
]
pandas.DataFrame(s)

2.2 从字典创立DataFrame

从字典创立DataFrame，主动依照字典进行列索引，行索引从0开始。

s = [
‘a’:[47, 66, 48, 77, 16, 91],
‘b’:[94, 52, 21, 10, 10, 60],
‘c’:[43, 48, 75, 70, 58, 22], 
‘d’:[92, 79, 14, 42, 93, 46], 
‘e’:[67, 94, 29, 23, 43, 50],
‘f’:[19, 44, 56, 62, 55, 41],
]
pandas.DataFrame(s, columns=[‘a’,‘b’,‘c’,‘d’,‘e’,‘f’))

2.3 pandas Dataframe列抉择

在刚学Pandas时，行抉择和列抉择非常容易混同，在这里进行一下整顿罕用的列抉择。

data[[‘a’]]      # 返回a列，DataFrame格局
data.iloc[:,0]   # 返回a列，Series格局
data.a           # 返回a列，Series格局
data[‘a’]        # 返回a列，Series格局

data.iloc[:,[0,3,4]]
data[[‘a’, ‘d’, ‘e’]]
data.iloc[:,[‘a’, ‘d’, ‘e’]]
data.iloc[:,2:]    # 第3列及当前
data.iloc[:,2:5]   # 第3、4、5列
data.iloc[:,:2]    # 开始两列

2.4 pandas Dataframe行抉择

整顿多种行抉择的办法，总有一种适宜你的。

data[1:2]
data.loc[1:1]
data.loc[1] #返回Series格局

data.iloc[-1:]
data[-1:]
data.tail(1)

data[2:5]
data.loc[2:4]

data.iloc[[2, 3, 5],:]

data.head(2)
data.tail(2)


data.sample(3)

2.5 pandas Dataframe返回指定行列

pandas的DataFrame十分不便的提取数据框内的数据。

data.iat[1, 2]

data.iloc[[2, 3, 5],[11, 4]]

2.6 pandas Dataframe条件查问

对各类数值型、文本型，单条件和多条件进行行抉择

data.[data.a>50]
data[data[‘a’]>50]
data.loc[data.a>50,:]
data.loc[data[‘a’]>50,:]

data.loc[(data.a>40) & (data.b>60),:]
data[(data.a>40)&(data.b>40)]

data.loc[data.a>50, [‘a’, ‘b’, ‘d’]]
data.loc[data[‘a’]>50, [‘a’, ‘b’, ‘d’]]

data.loc[(data.a>50)|(data.g==‘GD’),[‘a’, ‘b’, ‘g’]]
data.loc[(data.a>50)|(data.g.isin([‘GD’, ‘SH’])),[‘a’, ‘b’, ‘g’]]

2.7 pandas Dataframe聚合

能够按行、列进行聚合，也能够用pandas内置的describe对数据进行操作简略而又全面的数据聚合剖析。

data.sum(axis=1)
numpy.mean(data.values)
data.sum(axis=0)

data.describe()

2.8 pandas Dataframe中的聚合函数

data.function(axis=0)  # 按列计算
data.function(axis=1)  # 按行计算

2.9 pandas Dataframe分组统计

能够依照指定的多列进行指定的多个运算进行汇总统计。

df.groupby(‘g’).sum
df.groupby(‘g’)([‘d’]).agg([numpy.sum, numpy.mean, numpy.std])
df.groupby([‘g’, ‘h’]).mean

2.10 pandas Dataframe透视表

透视表是pandas的一个弱小的操作，大量的参数齐全能满足你个性化的需要。

pandas.pivot_table(df, index=‘g’, values=‘a’, columns=[‘h’], aggfunc=[numpy.sum], fill_value = 0, margins=True)

2.11 pandas Dataframe解决缺失值

pandas对缺失值有多种解决方法，满足各类需要。

data.dropna(axis=0)

data.dropna(axis=1)

data.dropna(axis=0)

2.12 pandas Dataframe查找替换

pandas 提供简略的查找替换性能，如果要简单的查找替换，能够应用map()、apply()和 applymap()

data.replace(‘GD’, ‘GDS’)

df.loc[df.a>50, ‘a’]=888

2.13 pandas Dataframe多数据源合并

两个DataFrame的合并，pandas会主动依照索引对齐，能够指定两个DataFrame的对齐形式，如内连贯外连贯等，也能够指定对齐的索引列。

df3 = pandas.merge(df1, df2, how=‘inner’)

df3 = pandas.merge(df1, df2, how=‘inner’, left_index=True, right_index=True)

2.14 pandas Dataframe更改列名

pandas要对Dataframe的列名进行批改，操作如下：

data.columns=[‘a’, ‘b’, ‘c’, ‘d’, ‘’e, ‘f’]

2.15 pandas Dataframe的apply变换函数

这是pandas的一个弱小的函数，能够针对每一个记录进行单值运算，无需手动写循环进行解决。

df[‘i’]=df.apply(compute, axis=1)  # a+b>100返回1，否则返回0，寄存到新的一列

df[‘i’]=df.apply(compute2, axis=1)  # g蕴含GD、FJ的，e小于50的，返回1，否则返回0

def compute(arr):
   a = arr['a']
   b = arr['b']
   if a+b>100:
       return 1
   else:
       return 0

def compute2(arr):
   a = arr['e']
   b = arr['g']
   if (g in ['GD','FJ']) and (e<50):
       return 1
   else:
       return 0

材料与代码下载

本教程系列的代码能够在ShowMeAI对应的github中下载，可本地python环境运行，能迷信上网的宝宝也能够间接借助google colab一键运行与交互操作学习哦！

本系列教程波及的速查表能够在以下地址下载获取：

Pandas速查表
NumPy速查表
Matplotlib速查表
Seaborn速查表

拓展参考资料

Pandas官网教程
Pandas中文教程

ShowMeAI相干文章举荐

数据分析介绍
数据分析思维
数据分析的数学根底
业务认知与数据初探
数据荡涤与预处理
业务剖析与数据挖掘
数据分析工具地图
统计与数据科学计算工具库Numpy介绍
Numpy与1维数组操作
Numpy与2维数组操作
Numpy与高维数组操作
数据分析工具库Pandas介绍
图解Pandas外围操作函数大全
图解Pandas数据变换高级函数
Pandas数据分组与操作
数据可视化准则与办法
基于Pandas的数据可视化
seaborn工具与数据可视化

ShowMeAI系列教程举荐

图解Python编程：从入门到精通系列教程
图解数据分析：从入门到精通系列教程
图解AI数学根底：从入门到精通系列教程
图解大数据技术：从入门到精通系列教程

关于数据分析:Python数据分析-Pandas核心操作函数大全

一、Pandas Series

1.1 从numpy array创立Series

1.2 从字典创立Series

1.3 Series数据的拜访

1.4 Series的聚合统计

二、DataFrame(数据帧)

2.1 从列表创立DataFrame

2.2 从字典创立DataFrame

2.3 pandas Dataframe列抉择

2.4 pandas Dataframe行抉择

2.5 pandas Dataframe返回指定行列

2.6 pandas Dataframe条件查问

2.7 pandas Dataframe聚合

2.8 pandas Dataframe中的聚合函数

2.9 pandas Dataframe分组统计

2.10 pandas Dataframe透视表

2.11 pandas Dataframe解决缺失值

2.12 pandas Dataframe查找替换

2.13 pandas Dataframe多数据源合并

2.14 pandas Dataframe更改列名

2.15 pandas Dataframe的apply变换函数

材料与代码下载

本系列教程波及的速查表能够在以下地址下载获取：

拓展参考资料

ShowMeAI相干文章举荐

ShowMeAI系列教程举荐

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据分析:Python数据分析-Pandas核心操作函数大全

一、Pandas Series

1.1 从numpy array创立Series

1.2 从字典创立Series

1.3 Series数据的拜访

1.4 Series的聚合统计

二、DataFrame(数据帧)

2.1 从列表创立DataFrame

2.2 从字典创立DataFrame

2.3 pandas Dataframe列抉择

2.4 pandas Dataframe行抉择

2.5 pandas Dataframe返回指定行列

2.6 pandas Dataframe条件查问

2.7 pandas Dataframe聚合

2.8 pandas Dataframe中的聚合函数

2.9 pandas Dataframe分组统计

2.10 pandas Dataframe透视表

2.11 pandas Dataframe解决缺失值

2.12 pandas Dataframe查找替换

2.13 pandas Dataframe多数据源合并

2.14 pandas Dataframe更改列名

2.15 pandas Dataframe的apply变换函数

材料与代码下载

本系列教程波及的速查表能够在以下地址下载获取：

拓展参考资料

ShowMeAI相干文章举荐

ShowMeAI系列教程举荐

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复