关于python:Pdf转Word用Python轻松搞定

24次阅读

共计 1175 个字符,预计需要花费 3 分钟才能阅读完成。

大家在日常的工作学习过程中, 都会遇到一个问题就是将 pdf 中的文本内容转化为 word 的模式,也就是从只读变成可读写的模式。 面对这种状况,大家大都采纳网上的工具,然而网上的工具参差不齐,很难达到咱们的需要。

明天,小编就率领大家利用 python 来实现如何将 pdf 的内容转化为 word 文档。同时咱们还将提取 pdf 中的图片,保留到咱们的指定文件夹内。

01. 文字的提取

咱们首先要做的是对于 pdf 中文本的提取,如下图所示:

Pdf 中文字是只容许咱们进行只读,然而无奈进行更改 ,所以咱们要做的就是提取 pdf 中的文字信息,而后将提取到的文字写入到 word 文件当中,让咱们可能进行后续的改写。对于文字的提取,咱们利用的是 pdfminer 函数库,其次要的函数如下图所示:

  • 程序首先利用 get_content_from_pdf 函数来返回 pdf 中提取到的数据;
  • 而后别离创立了 PDFResourceManager 对象来保留共享数据内容,PDFPageAggregator 对象来将资源对象解决成咱们须要的格局,而 PDFPageInterpreter 则是用来解决页面的内容;
  • 程序中 page_index 用来帮忙咱们设定须要提取哪几页的内容,对于咱们须要提取的页面,通过创立的 PDFPageInterpreter 对象来对页面信息进行解释;
  • 最初通过 PDFPageAggregator 对象来对数据进行解决;

这里的 layout 中就蕴含了页面解析进去的各种对象。包含文本,图片等信息。然而小编发现,对于图片的提取,pdfminer 的成果很不好,所以前面针对于图片的提取,小编采纳的 fitz 库进行独自的解决,获得很好的图片提取成果。说了这么多,咱们先来看一下对于文本的处理结果。


咱们的 pdf 是一个两页的 pdf 文档,咱们只让程序去提取第一页的文本,从上图能够看出,程序残缺的提取出第一页的文本,没有任何的谬误。

02. 图片的提取

有了对于文字的解决,接下来咱们就来看一下如何提取 pdf 中的图片,并将其保留到本地。对于图片的提取,程序如下图所示:

上述的程序中,咱们利用 fitz 库来提取 pdf 文档中的对象,而后通过字符串匹配来判断对象是不是图片类型,如果不是的话,咱们间接进行跳过即可。

如果判断对象是图片类型的话,咱们边能够通过创立 PixMap 对象来提取图片,并保留到咱们指定的门路下即可。后果如下图所示:

上图能够看出,咱们正确的将图片进行了提取,从而达到了咱们的图片提取的目标,而且小编也尝试过多个图片的提取,同样也是没有任何压力。能够在短短的几秒内实现 pdf 文档的所有图片的提取。

以上就是小编为大家带来的 pdf 转 word 的提取,咱们通过解说,不仅仅实现了对于 pdf 文档中文本的提取,而且还实现了对于图片的提取,从而大大的缓解咱们工作的压力,进步了工作的效率, 此篇文章如果对您有帮忙的话,麻烦点个关注再走吧~

正文完
 0