利用百度AI-OCR图片识别Java实现PDF中的图片转换成文字

jiezi

5 年前

序言：我们在读一些 PDF 版书籍的时候，如果 PDF 中不是图片，做起读书笔记的还好；如果 PDF 中的是图片的话，根本无法编辑，做起笔记来，还是很痛苦的。我是遇到过了。我们搞技术的，当然得自己学着解决现在的痛点。

为了不重复造轮子，当然得看看现在市面上是否有已经实现过的，如果有，那自然是拿来即用。

首先，说说一些在线版的 PDF 图片转文字，对文件大小有限制为 2M(似乎有很多的文件处理都是限制在这个数)，超过了便要收费了。

第二，那就是 WPS 的 PDF 图片转文字了。别说大小限制了，直接是收费。

该平台限制调用次数，作为个人开发者来说，基本上是够用了。

Java SDK 文档使用说明: https://ai.baidu.com/docs#/OCR-Java-SDK/top

不清楚的，可以去看文档。

逻辑思路 ：读取 PDF 文件，然后读取 PDF 中包含的图片，将图片传给百度 AI 平台去进行识别，返回结果解析。

省略 ….（相信大家都会哈）????????

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>
    <groupId>com.example</groupId>
    <artifactId>demo</artifactId>
    <version>0.0.1-SNAPSHOT</version>
    <name>demo</name>
    <description>
        Demo project for pdf 图片转换文字
        喜欢的微信关注公众号：Java 技术干货
    </description>

    <properties>
        <java.version>1.8</java.version>
    </properties>

    <dependencies>
        <dependency><!-- 百度 AI SDK-->
            <groupId>com.baidu.aip</groupId>
            <artifactId>java-sdk</artifactId>
            <version>4.8.0</version>
        </dependency>
        <dependency><!--PDF 操作工具包 -->
            <groupId>org.apache.pdfbox</groupId>
            <artifactId>pdfbox-app</artifactId>
            <version>2.0.16</version>
        </dependency>
    </dependencies>
</project>

package com.example.demo;

import com.baidu.aip.ocr.AipOcr;
import org.apache.pdfbox.cos.COSName;
import org.apache.pdfbox.pdmodel.*;
import org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject;
import org.apache.pdfbox.text.PDFTextStripper;
import org.json.JSONObject;


import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.*;
import java.nio.ByteBuffer;
import java.text.SimpleDateFormat;
import java.util.*;
import java.util.concurrent.atomic.AtomicInteger;

public class DemoApplication {
    // 设置 APPID/AK/SK
    public static final String APP_ID = "你的 APP_ID";
    public static final String API_KEY = "你的 API_KEY";
    public static final String SECRET_KEY = "你的 SECRET_KEY";
    public static final String DATE_FORMAT = "yyyy-MM-dd HH:mm:ss";
    
    /**
     * 解析 pdf 文档信息
     *
     * @param pdfPath pdf 文档路径
     * @throws Exception
     */
    public static void pdfParse(String pdfPath) throws Exception {
        InputStream input = null;
        File pdfFile = new File(pdfPath);
        PDDocument document = null;
        try {input = new FileInputStream(pdfFile);
            // 加载 pdf 文档
            document = PDDocument.load(input);

            /** 文档属性信息 **/
            PDDocumentInformation info = document.getDocumentInformation();
            System.out.println("标题:" + info.getTitle());
            System.out.println("主题:" + info.getSubject());
            System.out.println("作者:" + info.getAuthor());
            System.out.println("关键字:" + info.getKeywords());

            System.out.println("应用程序:" + info.getCreator());
            System.out.println("pdf 制作程序:" + info.getProducer());

            System.out.println("作者:" + info.getTrapped());

            System.out.println("创建时间:" + dateFormat(info.getCreationDate()));
            System.out.println("修改时间:" + dateFormat(info.getModificationDate()));


            // 获取内容信息
            PDFTextStripper pts = new PDFTextStripper();
            String content = pts.getText(document);
            System.out.println("内容:" + content);


            /** 文档页面信息 **/
            PDDocumentCatalog cata = document.getDocumentCatalog();
            PDPageTree pages = cata.getPages();
            System.out.println(pages.getCount());
            int count = 1;

            // 初始化一个 AipOcr
            AipOcr client = new AipOcr(APP_ID, API_KEY, SECRET_KEY);

            // 可选：设置网络连接参数
            client.setConnectionTimeoutInMillis(2000);
            client.setSocketTimeoutInMillis(60000);

            for (int i = 0; i < pages.getCount(); i++) {PDPage page = (PDPage) pages.get(i);
                if (null != page) {PDResources res = page.getResources();
                    Iterable xobjects = res.getXObjectNames();
                    if(xobjects != null){Iterator imageIter = xobjects.iterator();
                        while(imageIter.hasNext()){COSName key = (COSName) imageIter.next();
                            if (res.isImageXObject(key)) {
                                try {PDImageXObject image = (PDImageXObject) res.getXObject(key);
                                    BufferedImage bimage = image.getImage();
                                     // 将 BufferImage 转换成字节数组
                                    ByteArrayOutputStream out =new ByteArrayOutputStream();
                                    ImageIO.write(bimage,"png",out);//png 为要保存的图片格式
                                    byte[] barray = out.toByteArray();
                                    out.close();
                                     // 发送图片识别请求 
                                    JSONObject json = client.basicGeneral(barray, new HashMap<String, String>());
                                    System.out.println(json.toString(2));
                                    count++;
                                    System.out.println(count);
                                } catch (Exception e) {}}
                        }
                    }
                }
            }
        } catch (Exception e) {throw e;} finally {if (null != input)
                input.close();
            if (null != document)
                document.close();}
    }

    /**
     * 获取格式化后的时间信息
     *
     * @param dar 时间信息
     * @return
     * @throws Exception
     */
    public static String dateFormat(Calendar calendar) throws Exception {if (null == calendar)
            return null;
        String date = null;
        try {
            String pattern = DATE_FORMAT;
            SimpleDateFormat format = new SimpleDateFormat(pattern);
            date = format.format(calendar.getTime());
        } catch (Exception e) {throw e;}
        return date == null ? "" : date;
    }

    public static void main(String[] args) throws Exception {

        // 读取 pdf 文件
        String path = "C:\\Users\\fl\\Desktop\\a.pdf";
        pdfParse(path);

    }

}

样例 1：封面识别

识别前：

识别后：

样例 2：正文识别

识别前：

识别后：

花一两个小时，把这一块儿的功能熟悉了一下，看了一下结果还是很满意的，虽然缺少了一些格式。但是能够把文字识别出来，就避免了手动再去敲一次。提高了读书做笔记的效率。

喜欢的朋友们可以点个关注或喜欢????

利用百度AI-OCR图片识别Java实现PDF中的图片转换成文字

一. 现状

二. 方案实现

2.1 百度 AI 平台获取 AppID, API Key, Secret Key

2.2 代码实现

第一步：新建一个 Demo 的 Maven 工程

第二步：引入 POM

第三步：新建一个带有 main 方法的类

第四步：识别结果对比

样例 1：封面识别

样例 2：正文识别

三. 总结

一. 现状

二. 方案实现

2.1 百度 AI 平台 获取 AppID, API Key, Secret Key

2.2 代码实现

第一步：新建一个 Demo 的 Maven 工程

第二步：引入 POM

第三步：新建一个带有 main 方法的类

第四步：识别结果对比

样例 1：封面识别

样例 2：正文识别

三. 总结

2.1 百度 AI 平台获取 AppID, API Key, Secret Key