关于pandas:Pandas学习笔记02处理数据实用操作

作者：幻好

起源：恒生LIGHT云社区

Pandas 是一个 Python 软件库，它提供了大量能使咱们疾速便捷地解决数据的函数和办法。在本文将次要介绍 Pandas 的实用数据处理操作。

系列文章：

【Pandas学习笔记01】弱小的剖析结构化数据的工具集

概述

Pandas 是基于 NumPy 构建的库，在数据处理方面能够把它了解为 NumPy 加强版，同时 Pandas 也是一项开源我的项目。它基于 Cython，因而读取与解决数据十分快，并且还能轻松解决浮点数据中的缺失数据（示意为 NaN）以及非浮点数据。在本文中，根本数据集操作次要介绍了 CSV 与 Excel 的读写办法，根本数据处理次要介绍了缺失值及特色抽取，最初的 DataFrame 操作则次要介绍了函数和排序等办法。

数据集根底操作

读取 CSV 格式文件中的数据集

import pandas as pd
# 形式1 
df1 = pd.read_csv(“file.csv”)
# 形式2
df2 = pd.DataFrame.from_csv(“file.csv”)

读取 Excel 格式文件中的数据集

import pandas as pd
df = pd.read_excel("file.xlsx")

获取根本的数据集特色信息

df.info()

查问数据集根本统计信息

print(df.describe())

查问所有列的题目名称

print(df.columns)

应用 DataFrame 对象将数据写入 CSV 文件

# 采纳逗号作为分隔符，且不带索引
df.to_csv("data.csv", sep=",", index=False)

数据集的解决

首先定义一个 DataFrame 数据集：

import pandas as pd

df = pd.DataFrame(data = [['java',1],['python',2],['golang','3']],index = [1,2,3],columns = ['name','rank'])
print(df)

打印数据集：

     name rank
1    java    1
2  python    2
3  golang    3

查问数据操作

应用df.loc[index, column] 对具体的行和列的数据进行查问

# 查问指定行和列的数据
df.loc[0,'name']
#选取第0行到第1行，name列和rank列的数据
df.loc[[0,1],['name','age']]
#选取name列是M，name和rank列的数据
df.loc[df['name']=='java',['name','rank']]

通过df['column_name'] 或df[row_start_index, row_end_index] 对整列或肯定范畴的行数据进行查问

# 选取单列或多列
df['name']
df[['name','rank']] 
#第0行及之后的行
df[0:]   
# 第1行到第2行（不含第3行）
df[1:3]   
# 最初一行
df[-1:]

减少数据操作

向数据集中减少列数据：

# 在第0列，加上 column 名称为 user_num，值为 user_num 的值
user_num = ['100','89','70']
df.insert(0,'user_num',user_num) 

# 默认在df最初一列加上column名称为 application，值为 application 的数据
application = ['Web','AI','server']
df['application'] = application

向数据集中减少行数据：

# 若df中没有index为“10”的这一行数据，则新增
# 若df中曾经有index为“10”的这一行数据，则更新数据。
df.loc[10] = ['php',10]

# 向df中追加新的数据
new_df = pd.DataFrame(index = True,columns = ['name','rank'])
df = df.append(new_df,ignore_index = True)

批改数据操作

批改列题目

#只把’user_num’改为’users’，要把所有的列全写上，否则报错。
df.columns = ['name', 'rank', 'users'] 
#只批改name,inplace若为True，间接批改df，否则，不批改df，只是返回一个批改后的数据。
df.rename(columns = {'name':'Name'}, inplace = True)

批改数值

# 批改index为‘0’，column为‘name’的那一个值为C
df.loc[0, 'name'] = 'C'  
# 批改index为‘0’的那一行的所有值
df.loc[0] = ['java', 1, '1000']  
# 批改index为‘0’，column为‘name’的那一个值为Java
df.loc[0,['name','rank']] = ['Java'] 
# 替换缺失数据
df.replace(to_replace=None, value=None)

删除数据操作

删除行数据

# 删除index值为2和3的两行
df.drop([2,3],axis = 0,inplace = False)

删除列数据

# 删除 name 列
df.drop(['name'],axis = 1,inplace = False)  
del df['name']  
# 删除 name 列，操作后，将删除的返回给new_df
new_df = df.pop('age')

总结

本文次要介绍 Pandas 工具集的实用操作，可能帮忙咱们解决日常数据处理的根本问题，后续将持续分享高阶技巧，敬请期待。

关于pandas:Pandas学习笔记02处理数据实用操作

概述

数据集根底操作

数据集的解决

查问数据操作

减少数据操作

批改数据操作

删除数据操作

总结

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于pandas:Pandas学习笔记02处理数据实用操作

概述

数据集根底操作

数据集的解决

查问数据操作

减少数据操作

批改数据操作

删除数据操作

总结

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复