关于python:pandas数据清洗

40次阅读

共计 512 个字符,预计需要花费 2 分钟才能阅读完成。

读取 csv 文件

df =pd.read_csv(self,csvdir,sheet_name=0)

所有空值替换

df=df.fillna("此处未填写")

特殊字符替换

df["产品系列"].replace(regex={r"\(.+":"",r"(.+":"",r"\[.+":""},inplace = True)
df["产品系列"].replace(regex={r"/":""},inplace = True)

宰割日期获取月份

df["培修月份"]=df["制单日期"].str.split(r"/",expand=True)[1]

用正则 + 字典替换

df["故障"].replace(regex=dict2,inplace = True)

把不常见的分类对立替换为其余

df["故障分类"]=np.where(df. 故障分类.isin(faultcategory),df["故障分类"],"其余故障")

删除 list 蕴含的列

df.drop(droplist,axis=1,inplace = True)

客户数量小于等于 5

df["客户分类 1"]=np.where(df. 客户起源计数.isin(range(5)),"终端用户",df["客户起源计数"])

正文完
 0