关于python:Python之Pandas总结

53次阅读

共计 5382 个字符，预计需要花费 14 分钟才能阅读完成。

Pandas 是 Python 的一个数据分析包，该工具为解决数据分析工作而创立。
Pandas 纳入大量库和规范数据模型，提供高效的操作数据集所需的工具。
Pandas 提供大量能使咱们疾速便捷地解决数据的函数和办法。
Pandas 是字典模式，基于 NumPy 创立，让 NumPy 为核心的利用变得更加简略。

pip3 install pandas

import pandas as pd  #为了不便实用 pandas 采纳 pd 简写

Pandas 的次要数据结构是 Series（一维数据）与 DataFrame（二维数据），这两种数据结构足以解决金融、统计、社会科学、工程等畛域里的大多数典型用例。

Series 是一种相似于一维数组的对象，它由一组数据（各种 Numpy 数据类型）以及一组与之相干的数据标签（即索引）组成。

import numpy as np
import pandas as pd
s=pd.Series([1,2,3,np.nan,5,6])
#nan(NAN，Nan):not a number 示意不是一个数字，np.nan 是一个 float 类型的数据
print(s)# 索引在右边 值在左边

DataFrame 是一个表格型的数据结构，它含有一组有序的列，每列能够是不同的值类型（数值、字符串、布尔型值）。DataFrame 既有行索引也有列索引，它能够被看做由 Series 组成的字典（独特用一个索引）。

dates=pd.date_range('20180310',periods=6)
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=['A','B','C','D'])# 生成 6 行 4 列地位
print(df)# 输入 6 行 4 列的表格

print(df['B'])

# 创立特定数据的 DataFrame
df_1=pd.DataFrame({'A' : 1.,
                    'B' : pd.Timestamp('20180310'),
                    'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                    'D' : np.array([3] * 4,dtype='int32'),
                    'E' : pd.Categorical(["test","train","test","train"]),
                    'F' : 'foo'
                    })
print(df_1)

print(df_1.dtypes) #输入数据类型

print(df_1.index)# 行的序号

print(df_1.columns)# 列的序号名字

print(df_1.values)# 把每个值进行打印进去

print(df_1.describe())# 数字总结

print(df_1.T)# 翻转数据，行列对调

print(df_1.sort_index(axis=1, ascending=False))
#axis 等于 1 按列进行排序 如 ABCDEFG 而后 ascending 顺叙进行显

print(df_1.sort_values(by='E'))# 按值进行排序

dates=pd.date_range('20180310',periods=6)
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=['A','B','C','D'])# 生成 6 行 4 列地位
print(df)

print(df['A'])# 或者 df.A 抉择某列

print(df[0:3], df['20180310':'20180314'])
#两次进行抉择 第一次切片抉择 第二次依照筛选条件进行抉择

print(df.loc['20180312', ['A','B']])# 依照行标签进行抉择 准确抉择

print(df.iloc[3, 1])# 输入第三行第一列的数据

print(df.iloc[3:5,0:2])# 进行切片抉择

print(df.iloc[[1,2,4],[0,2]])# 进行不间断筛选

print(df[df.A > 0])# 筛选出 df.A 大于 0 的元素 布尔条件筛选

dates = pd.date_range('20180310', periods=6)
df = pd.DataFrame(np.arange(24).reshape((6,4)), index=dates, columns=['A', 'B', 'C', 'D'])
print(df)

df.iloc[2,2] = 999# 单点设置
df.loc['2018-03-13', 'D'] = 999
print(df)

df[df.A>0]=999# 将 df.A 大于 0 的值扭转
print(df)

df['F']=np.nan
print(df)

df['E']  = pd.Series([1,2,3,4,5,6], index=pd.date_range('20180313', periods=6))# 减少一列
print(df)

解决数据中 NaN 数据，咱们用这个测试数据 property-data.csv

import pandas as pd

df = pd.read_csv('property-data.csv')

print (df)

new_df = df.dropna()

print(new_df)

print(df.fillna(value=0))# 将 NaN 值替换为 0

print(pd.isnull(df))# 矩阵用布尔来进行示意 是 nan 为 ture 不是 nan 为 false

print(np.any(df.isnull()))# 判断数据中是否会存在 NaN 值

pandas 能够读取与存取像 csv、excel、json、html、pickle 等格局的材料，具体阐明请看官网材料

data=pd.read_csv('test1.csv')# 读取 csv 文件
data.to_pickle('test2.pickle')# 将材料存取成 pickle 文件 
#其余文件导入导出形式雷同

df1 = pd.DataFrame(np.ones((3,4))*0, columns=['a','b','c','d'])
df2 = pd.DataFrame(np.ones((3,4))*1, columns=['a','b','c','d'])
df3 = pd.DataFrame(np.ones((3,4))*2, columns=['a','b','c','d'])
res = pd.concat([df1, df2, df3], axis=0, ignore_index=True)#0 示意竖项合并 1 示意横项合并 ingnore_index 重置序列 index index 变为 0 1 2 3 4 5 6 7 8
print(res)

df1 = pd.DataFrame(np.ones((3,4))*0, columns=['a','b','c','d'], index=[1,2,3])
df2 = pd.DataFrame(np.ones((3,4))*1, columns=['b','c','d', 'e'], index=[2,3,4])
print(df1)

print(df2)

res=pd.concat([df1,df2],axis=1,join='outer')# 行往外进行合并
print(res)

res=pd.concat([df1,df2],axis=1,join='inner')# 行雷同的进行合并
print(res)

指定合并时应用的连贯形式，连贯形式有四种，默认为 left。

代码	连贯形式
inner	内连	取行索引的交加
outer	外连	取行索引的并集
left	左连	应用右边 df 的行索引
right	右连	应用左边 df 的行索引

df1 = pd.DataFrame(np.ones((3,4))*0, columns=['a','b','c','d'])
df2 = pd.DataFrame(np.ones((3,4))*1, columns=['a','b','c','d'])
df3 = pd.DataFrame(np.ones((3,4))*1, columns=['a','b','c','d'])
s1 = pd.Series([1,2,3,4], index=['a','b','c','d'])

res=df1.append(df2,ignore_index=True)# 将 df2 合并到 df1 的上面 并重置 index
print(res)

res=df1.append(s1,ignore_index=True)# 将 s1 合并到 df1 上面 并重置 index
print(res)

left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})
print(left)

right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                      'C': ['C0', 'C1', 'C2',  'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']})
print(right)

res=pd.merge(left,right,on='key')
print(res)

left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                             'key2': ['K0', 'K1', 'K0', 'K1'],
                             'A': ['A0', 'A1', 'A2', 'A3'],
                             'B': ['B0', 'B1', 'B2', 'B3']})
print(left)

right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                              'key2': ['K0', 'K0', 'K0', 'K0'],
                              'C': ['C0', 'C1', 'C2', 'C3'],
                              'D': ['D0', 'D1', 'D2', 'D3']})
print(right)

res=pd.merge(left,right,on=['key1','key2'],how='inner')# 内联结并
print(res)

res=pd.merge(left,right,on=['key1','key2'],how='outer')# 外联结并
print(res)

res=pd.merge(left,right,on=['key1','key2'],how='left')# 左联合并
print(res)

res=pd.merge(left,right,on=['key1','key2'],how='right')# 右联结并
print(res)

df1 = pd.DataFrame({'col1':[0,1], 'col_left':['a','b']})
print(df1)

df2 = pd.DataFrame({'col1':[1,2,2],'col_right':[2,2,2]})
print(df2)

res=pd.merge(df1,df2,on='col1',how='outer',indicator=True)# 根据 col1 进行合并 并启用 indicator=True 输入每项合并形式
print(res)

res = pd.merge(df1, df2, on='col1', how='outer', indicator='indicator_column')# 自定义 indicator column 名称
print(res)

left = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                                  'B': ['B0', 'B1', 'B2']},
                                  index=['K0', 'K1', 'K2'])
print(left)

right = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
                                     'D': ['D0', 'D2', 'D3']},
                                      index=['K0', 'K2', 'K3'])

res=pd.merge(left,right,left_index=True,right_index=True,how='outer')# 依据 index 索引进行合并 并抉择外联结并
print(res)

res=pd.merge(left,right,left_index=True,right_index=True,how='inner')
print(res)

正文完

python

发表至： python

2022-04-23

0

关于python:Kangrui‘s-Python-Learning-Dairy-20200721

关于python:深入理解Python字符编码

if-name-main的作用

关于python:oeasypython0037终端terminal电传打字机ttyshell控制台console发展历史

关于mq:MQjava-从零开始实现消息队列-mq02如何实现生产者调用消费者

关于python:Python之Pandas总结

1.Pandas 简述

2.Pandas 装置

3.Pandas 引入

4.Pandas 数据结构

4.1 Series

4.2 DataFrame

5.Pandas 抉择数据

5.1 抉择某行或某列

5.2 切片抉择

5.3 依据标签 loc- 行标签进行抉择数据

5.4 依据序列 iloc- 行号进行抉择数据

5.5 依据判断筛选

6.Pandas 设置数据

6.1 依据 loc 和 iloc 设置

6.2 依据条件设置

6.3 依据行或列设置

6.4 增加数据

7.Pandas 解决失落数据

7.1 输入 csv 文件数据

7.2 应用 dropna（）函数去掉 NaN 的行或列

7.3 应用 fillna（）函数替换 NaN 值

7.4 应用 isnull() 函数判断数据是否失落

8.Pandas 导入导出

9.Pandas 合并数据

9.1 axis 合并方向

9.2 join 合并形式

9.3 append 增加数据

10.Pandas 合并 merge

10.1 根据一组 key 合并

10.2 根据两组 key 合并

10.3 Indicator 合并

10.4 根据 index 合并

Just My Socks（注册教程内含优惠码）

关于python:Python之Pandas总结

1.Pandas 简述

2.Pandas 装置

3.Pandas 引入

4.Pandas 数据结构

4.1 Series

4.2 DataFrame

5.Pandas 抉择数据

5.1 抉择某行或某列

5.2 切片抉择

5.3 依据标签 loc- 行标签进行抉择数据

5.4 依据序列 iloc- 行号进行抉择数据

5.5 依据判断筛选

6.Pandas 设置数据

6.1 依据 loc 和 iloc 设置

6.2 依据条件设置

6.3 依据行或列设置

6.4 增加数据

7.Pandas 解决失落数据

7.1 输入 csv 文件数据

7.2 应用 dropna（）函数去掉 NaN 的行或列

7.3 应用 fillna（）函数替换 NaN 值

7.4 应用 isnull() 函数判断数据是否失落

8.Pandas 导入导出

9.Pandas 合并数据

9.1 axis 合并方向

9.2 join 合并形式

9.3 append 增加数据

10.Pandas 合并 merge

10.1 根据一组 key 合并

10.2 根据两组 key 合并

10.3 Indicator 合并

10.4 根据 index 合并

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）