关于python:Pdf转Word用Python轻松搞定

大家在日常的工作学习过程中，都会遇到一个问题就是将pdf中的文本内容转化为word的模式，也就是从只读变成可读写的模式。面对这种状况，大家大都采纳网上的工具，然而网上的工具参差不齐，很难达到咱们的需要。

明天，小编就率领大家利用python来实现如何将pdf的内容转化为word文档。同时咱们还将提取pdf中的图片，保留到咱们的指定文件夹内。

01.文字的提取

咱们首先要做的是对于pdf中文本的提取，如下图所示：

Pdf中文字是只容许咱们进行只读，然而无奈进行更改，所以咱们要做的就是提取pdf中的文字信息，而后将提取到的文字写入到word文件当中，让咱们可能进行后续的改写。对于文字的提取，咱们利用的是pdfminer函数库，其次要的函数如下图所示：

程序首先利用get_content_from_pdf函数来返回pdf中提取到的数据；
而后别离创立了PDFResourceManager对象来保留共享数据内容，PDFPageAggregator对象来将资源对象解决成咱们须要的格局，而PDFPageInterpreter则是用来解决页面的内容；
程序中page_index用来帮忙咱们设定须要提取哪几页的内容，对于咱们须要提取的页面，通过创立的PDFPageInterpreter对象来对页面信息进行解释；
最初通过PDFPageAggregator对象来对数据进行解决；

这里的layout中就蕴含了页面解析进去的各种对象。包含文本，图片等信息。然而小编发现，对于图片的提取，pdfminer的成果很不好，所以前面针对于图片的提取，小编采纳的fitz库进行独自的解决，获得很好的图片提取成果。说了这么多，咱们先来看一下对于文本的处理结果。

咱们的pdf是一个两页的pdf文档，咱们只让程序去提取第一页的文本，从上图能够看出，程序残缺的提取出第一页的文本，没有任何的谬误。

02.图片的提取

有了对于文字的解决，接下来咱们就来看一下如何提取pdf中的图片，并将其保留到本地。对于图片的提取，程序如下图所示：

上述的程序中，咱们利用fitz库来提取pdf文档中的对象，而后通过字符串匹配来判断对象是不是图片类型，如果不是的话，咱们间接进行跳过即可。

如果判断对象是图片类型的话，咱们边能够通过创立PixMap对象来提取图片，并保留到咱们指定的门路下即可。后果如下图所示：

上图能够看出，咱们正确的将图片进行了提取，从而达到了咱们的图片提取的目标，而且小编也尝试过多个图片的提取，同样也是没有任何压力。能够在短短的几秒内实现pdf文档的所有图片的提取。

以上就是小编为大家带来的pdf转word的提取，咱们通过解说，不仅仅实现了对于pdf文档中文本的提取，而且还实现了对于图片的提取，从而大大的缓解咱们工作的压力，进步了工作的效率，此篇文章如果对您有帮忙的话，麻烦点个关注再走吧~

评论