之前分享了一篇对于Python的Excel合并的文章
。链接在下方,明天为大家分享一个Python去除Excel中雷同数据
也是以一个工资表为例。为不便参观,数据量少,足够应用。
致力打造口中:他人的公众号
文中代码的演示成果以及源码获取请点这里
素材筹备
一个带有反复数据的Excel工资表
- 装置下载模块(
numpy
、pandas
、xlrd
) - 抉择正确的门路(
工资表门路
) - 写代码
能够看到,数据中有王一是有两列
如何筛选数据
此次通过手机号来筛选数据
名字可能雷同,工资等也有可能雷同
然而手机号是惟一
代码分享
#去除反复数据import pandas as pd # pip3 install pandasimport numpy as np # pip3 install numpyimport xlrd # pip install xlrdlabelName_phone = '手机号'file_name = "2月份工资表"frame = pd.read_excel('assets/'+file_name+'.xlsx')data = pd.DataFrame(frame)data.drop_duplicates([labelName_phone], keep='last', inplace=True)data.to_excel('assets/'+file_name+'去重数据.xlsx')print('实现')
成果展现
代码胜利运行当前,能够看到文件夹内多了一个Excel表。
关上即可发现,外面雷同数据仅剩下一个。