关于python:Python-超强大的PDF表格提取器-Camelot

38次阅读

共计 1200 个字符,预计需要花费 3 分钟才能阅读完成。

如果你有从 PDF 中批量提取表格的需要,那么这篇文章就是你的福音。

Python 第三方模块 Camelot 可能精准辨认 PDF 中的表格信息,并提取为 pandas 数据结构,而且还能导出为多种格局:JSON,Excel,HTML 和 Sqlite。

上面给大家介绍这个模块的应用办法:

1. 筹备

开始之前,你要确保 Python 和 pip 曾经胜利装置在电脑上。

如果你用 Python 的目标是数据分析,能够间接装置 Anaconda,它内置了 Python 和 pip.

此外,举荐大家用 VSCode 编辑器,它有许多的长处。

请抉择以下任一种形式输出命令装置依赖

  1. Windows 环境 关上 Cmd (开始 - 运行 -CMD。
  2. MacOS 环境 关上 Terminal (command+ 空格输出 Terminal)。
  3. 如果你用的是 VSCode 编辑器 或 Pycharm,能够间接应用界面下方的 Terminal。
pip install camelot-py[cv]

2. 应用

最简略的应用形式如下:

import camelot
# 1. 读取 pdf
tables = camelot.read_pdf('foo.pdf', flavor='stream')
# 2. 导出 pdf 所有的表格为 csv 文件
tables.export('foo.csv', f='csv') # json, excel, html, sqlite

第一行,导入 camelot 这个模块。

第二行,以 stream 的模式读取当前目录的 foo.pdf 文件。

第三行,将所有表格数据导出为 foo.csv 文件,并保留在以后文件夹下。

相当简略,请留神,read_pdf 的 flavor 参数是可选的,如果你不带这个参数,请留神须要装置 ghostscript 这个驱动,因为它默认应用 ghostscript 去用 lattice 模式。

3. 进阶

3.1 解决背景线:

能够看到,很多表格的线都暗藏在背景中。这种表格默认是不反对的,这时候咱们须要让程序可能自动识别这样的表格:

tables = camelot.read_pdf('background_lines.pdf', process_background=True)

减少 process_background=True 参数即可。

3.2 指定表格区域

某些状况下无奈正确辨认到 PDF 中的表格,此时手动设定左上角和右下角的边界可能是有成果的:

tables = camelot.read_pdf('table_areas.pdf', flavor='stream', table_areas=['316,499,566,337'])

其中 table_areas 承受格局为 x1,y1,x2,y2 的字符串,其中 (x1,y1) -> 左上角, (x2,y2) -> 右下角。在 PDF 坐标空间中,页面的左下角是原点,坐标为(0,0)。

咱们的文章到此就完结啦,如果你喜爱明天的 Python 实战教程,能够关注公众号 Python 编程学习圈 ,理解更多编程技术干货!

正文完
 0