乐趣区

关于java:Java-PDF转HTML

PDF 文件可能在不同的平台上出现各种内容而不扭转其外观,包含文字、图片、表格、动图等在内的内容都能够通过 PDF 文件进行保留、传输及展现。而 HTML 文件对于 PDF 文件展现的内容有比拟好的反对,能够说领有不输 PDF 文件的内容包容能力,且 HTML 文件可能进行在线利用,次要用于传输和出现网页内容。因而,如果须要将 PDF 文件的内容出现于网页中,能够将 PDF 文件转换成 HTML 文件。本文将教大家如何编程 将 PDF 文件转换为 HTML 文件
本文所介绍的办法须要用到收费 Office 库 Free Spire.PDF for Java。首先须要引入 Jar 文件。

1. 应用 Maven

复制以下代码到我的项目文件夹下的“pom.xml“文件中,即可引入 JAR 文件。

<repositories>
        <repository>
            <id>com.e-iceblue</id>
            <name>e-iceblue</name>
         <url>https://repo.e-iceblue.com/nexus/content/groups/public/</url>
</repository>
</repositories>
<dependencies>
    <dependency>
        <groupId>e-iceblue</groupId>
        <artifactId>spire.pdf.free</artifactId>
        <version>5.1.0</version>
    </dependency>
</dependencies>

2. 手动增加

在 Spire.Doc for Java 免费版官网下载免费版,解压后,在“Project Structure“中,找到”Modules“,而后在其中的“Dependencies”中,增加解压出的“lib”文件夹下的 Spire.Doc.jar 文件。

将 PDF 文件转为 HTML 文件

转换操作非常简单,仅需三步,具体步骤如下:

  • 创立 PdfDocument 类的对象。
  • PdfDocument.loadFromFile() 办法从磁盘加载 PDF 文档。
  • PdfDocument.saveToFile() 办法将 PDF 文件转换为 HTML 文件并保留。

代码示例:

Java

import com.spire.pdf.*;

public class PDFToHTML {public static void main(String[] args) {
        // 创立 Document 类的对象
        PdfDocument pdf = new PdfDocument();
        
        // 从磁盘加载 PDF 文档
        pdf.loadFromFile(data/Sample.pdf");
        
        // 将 PDF 文档转换为 HTML 文件并保留
        pdf.saveToFile("output/PDFToHTML.html", FileFormat.HTML);
    }
}

转换成果:

以上援用的是收费的 Free Spire.PDF for Java 中的 JAR 文件。

退出移动版