关于python:办公室文员必备python神器将PDF文件表格转换成excel表格

39次阅读

共计 1338 个字符,预计需要花费 4 分钟才能阅读完成。

【浏览全文】

第三方库阐明

# PDF 读取第三方库
import pdfplumber

# DataFrame 数据后果解决
import pandas as pd

初始化 DataFrame 数据对象

# 初始化 DataFrame 数据对象、用于 DataFrame 数据保留
data_frame = pd.DataFrame()

读取 PDF 表格

# pdf 文件门路
pdf_file = '/usr/load/data.pdf'

# 读取 pdf 数据
pdf_data = pdfplumber.open(pdf_file)

# 遍历 PDF 数据
for page in pdf_data.pages:
    # 每一页的 Tbale 表格数据
    table = page.extract_table()
    # 将每一页的数据写入一个 DataFrame 对象
    data_frame_page = pd.DataFrame(table[1:], columns=table[0])
    # 合并每一页的表格数据
    data_frame = pd.concat([data_frame_page, data_frame], ignore_index=True)

# 简略的数据荡涤、删除其中列值全副为 Nan 的数据列
data_frame.dropna(axis=1, how='all', inplace=True)

写入 EXCEL 表格

# excel 文件门路
excel_path = '/usr/load/data.pdf'

# 自定义列名
data_frame.columns = ['姓名', '年龄', '身份证号', '绩效考核']

# DataFrame 数据保留到 Excel 数据表中
data_frame.to_excel(excel_writer=excel_path, index=False, encoding='utf-8')

【粉丝福利】关注公众号,获取全套视频材料,应用 python 的 pdf 读写功能模块,将从 pdf 读取的表格内容自定义转换后写入 excel 文件表格。喜爱小编点个 ‘ 关注 ’ 吧!

【往期精选】

● python 中最好用的身份证规定解析工具,地区码、性别、出生年月、身份证编码等疾速校验!

● os 用法总结:python 中必须把握的内置模块 os,实现与计算机操作系统的惯例交互!

● python 实用技巧:几十行代码将照片转换成素描图、随后打包成可执行文件(源码分享)

● python 十行代码实现文件去重,去除反复文件的脚本

● python 的 GUI 框架 tkinter,实现程序员的流氓式表白逻辑

● 探索 python 函数的不定长参数 args 与 *kwargs

● 没有沉思过的 python 冷常识你晓得几个?

● python 图片解决,主动生成 gif 动静图片

● python-redis 的操作手法,相当简略的 redis 数据存储形式!

● python 日期、工夫解决,各种日期工夫格局 / 字符串之间的互相转换到底是怎么的?

● python 内置的数据计数器 Counter 相当 nice

● 几十行代码实现 python 发送邮件与接管邮件

● 没有开发工具,在服务器控制台如何进行 python 代码调试,高级编程 pdb 代码调试!

● 梳理 python 路线常识盲区,最全面、最具体的 python 常识体系框架思维导图终于出炉了!

本文由微信公众号【python 集中营】公布,更多精彩文章、视频材料即可支付!

正文完
 0