关于python:大话-Pythonpython-操作-excel-系列-数据清洗

6次阅读

共计 902 个字符,预计需要花费 3 分钟才能阅读完成。

python 在对 excel 操作的同时,后面文章中说了数据的读取、插入、简略剖析,还有一个十分重要的点就是数据荡涤。那什么叫数据荡涤,说白了就是去除数据文本中的垃圾值,比方:存在的空值、多余的空格、数据格式等等的解决。

1,导入 python 库、读取 excel 数据
# 导入 pandas 库
import pandas as pd
# read_excel() 读取 excel 数据
# DataFrame() 将读取到的数据转换为 DataFrame 数据
df = pd.DataFrame(pd.read_excel('data.xlsx'))
2,数据荡涤(去除空值)
# dropna() 函数去除 df 数据表中存在空值的所有行
df.dropna(how='any')
# mean() 函数计算 age 字段所在列的平均值
age_pre = df['age'].mean()
# 应用 fillna() 函数对存在的空值进行填充,将 age_pre 的值填充到字段为空的值内面
df['age'].fillna(age_pre)
3,数据荡涤(革除字段中的空格)
# 革除字段的空格
df['name'] = df['name'].map(str.strip)
4,数据荡涤(对某个列进行重命名)
# rename() 函数对列进行重命名
df.rename(columns={'name': 'name_new'})
5,数据荡涤(革除某一列中的反复值)
# 从前往后查找某个列中的反复值,如果存在则革除前面所呈现的反复值
df['name'].drop_duplicates()
# 从后往前查找某个列中的反复值,如果存在则革除后面所呈现的反复值
df['city'].drop_duplicates(keep='last')
# 两种正好是依照相同的革除程序 
6,数据荡涤(数据值替换)
# 将某一列中的具体值进行替换
df['name'].replace('laow', 'lwsbc')

更多精彩请关注本系列老王说编程 >>>

版权申明:本文为 CSDN 博主「老王说编程」的原创文章,遵循 CC 4.0 BY-SA 版权协定,转载请附上原文出处链接及本申明。
原文链接:https://blog.csdn.net/chengxu…

正文完
 0