关于python:Python-超强大的PDF表格提取器-Camelot

如果你有从PDF中批量提取表格的需要，那么这篇文章就是你的福音。

Python 第三方模块 Camelot 可能精准辨认PDF中的表格信息，并提取为pandas数据结构，而且还能导出为多种格局：JSON，Excel，HTML和Sqlite。

上面给大家介绍这个模块的应用办法：

1.筹备

开始之前，你要确保Python和pip曾经胜利装置在电脑上。

如果你用Python的目标是数据分析，能够间接装置Anaconda，它内置了Python和pip.

此外，举荐大家用VSCode编辑器，它有许多的长处。

请抉择以下任一种形式输出命令装置依赖：

Windows 环境关上 Cmd (开始-运行-CMD。
MacOS 环境关上 Terminal (command+空格输出Terminal)。
如果你用的是 VSCode编辑器或 Pycharm，能够间接应用界面下方的Terminal。

pip install camelot-py[cv]

2.应用

最简略的应用形式如下：

import camelot
# 1.读取pdf
tables = camelot.read_pdf('foo.pdf', flavor='stream')
# 2.导出pdf所有的表格为csv文件
tables.export('foo.csv', f='csv') # json, excel, html, sqlite

第一行，导入camelot这个模块。

第二行，以stream的模式读取当前目录的foo.pdf文件。

第三行，将所有表格数据导出为 foo.csv 文件，并保留在以后文件夹下。

相当简略，请留神，read_pdf 的 flavor 参数是可选的，如果你不带这个参数，请留神须要装置 ghostscript 这个驱动，因为它默认应用 ghostscript 去用 lattice 模式。

3.进阶

3.1 解决背景线：

能够看到，很多表格的线都暗藏在背景中。这种表格默认是不反对的，这时候咱们须要让程序可能自动识别这样的表格：

tables = camelot.read_pdf('background_lines.pdf', process_background=True)

减少 process_background=True 参数即可。

3.2 指定表格区域

某些状况下无奈正确辨认到PDF中的表格，此时手动设定左上角和右下角的边界可能是有成果的：

tables = camelot.read_pdf('table_areas.pdf', flavor='stream', table_areas=['316,499,566,337'])

其中 table_areas 承受格局为 x1，y1，x2，y2 的字符串，其中(x1，y1) -> 左上角, (x2，y2) -> 右下角。在PDF坐标空间中，页面的左下角是原点，坐标为（0，0）。

咱们的文章到此就完结啦，如果你喜爱明天的Python 实战教程，能够关注公众号Python编程学习圈，理解更多编程技术干货！

关于python:Python-超强大的PDF表格提取器-Camelot

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于python:Python-超强大的PDF表格提取器-Camelot

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复