共计 2810 个字符,预计需要花费 8 分钟才能阅读完成。
概述
一般来说,咱们无奈对 PDF 文档格局的内容进行批改编辑,但当咱们确有此需要时,可通过提取文本内容的形式来实现。本文就将介绍如何通过 Java 代码来提取 PDF 文档中的文本内容。
此教程用到的第三方控件是Free Spire.PDF for Java(免费版)。依据不同需要,它能够反对以下三方面的提取性能。
- 提取 PDF 文档中的 所有文本内容
- 提取 PDF指定页面 的文本内容
- 提取 PDF指定区域 的文本内容
Jar 包的获取及导入
在运行代码前,需将 Free Spire.PDF for Java 控件中的 Jar 包导入 IDEA 中。导入形式有两种:其一,在官网上下载产品包,解压后将 lib 文件夹下的 Spire.Pdf.jar 手动导入 IDEA;其二,在 IDEA 中创立一个 Maven 我的项目,而后在 pom.xml 文件中键入以下代码,最初点击“Import Changes”即可。
<repositories>
<repository>
<id>com.e-iceblue</id>
<url>http://repo.e-iceblue.cn/repository/maven-public/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>e-iceblue</groupId>
<artifactId>spire.pdf.free</artifactId>
<version>3.9.0</version>
</dependency>
</dependencies>
示例代码
示例 1 提取 PDF 文档中的所有文本内容
import com.spire.pdf.PdfDocument;
import com.spire.pdf.PdfPageBase;
import java.io.*;
public class ExtractAllText {public static void main(String[] args) {
// 创立 PdfDocument 实例
PdfDocument doc=new PdfDocument();
// 加载 PDF 文档
doc.loadFromFile("C:UsersTest1DesktopSample.pdf");
// 创立 StringBuilder 实例
StringBuilder sb=new StringBuilder();
PdfPageBase page;
// 遍历 PDF 页面,获取每个页面的文本并增加到 StringBuilder 对象
for(int i=0;i<doc.getPages().getCount();i++){page=doc.getPages().get(i);
sb.append(page.extractText(true));
}
FileWriter writer;
try {
// 将 StringBuilder 对象中的文本写入到文本文件
writer = new FileWriter("output/ExtractAllText.txt");
writer.write(sb.toString());
writer.flush();} catch (IOException e) {e.printStackTrace();
}
doc.close();}
}
提取成果:
示例 2 提取 PDF 指定页面的文本内容
import com.spire.pdf.*;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
public class ExtractTextFromParticularPage {public static void main(String[] args) throws IOException {
// 加载 PDF 文档
PdfDocument pdf = new PdfDocument();
pdf.loadFromFile("C:UsersTest1DesktopSample.pdf");
// 创立.txt 文件,用于保留提取的文本
String result = "output/extractTextFromAParticularPage.txt";
File file=new File(result);
if(!file.exists()){file.delete();
}
file.createNewFile();
FileWriter fw=new FileWriter(file,true);
BufferedWriter bw=new BufferedWriter(fw);
// 获取第一页的文本
PdfPageBase page = pdf.getPages().get(0);
String text = page.extractText(true);
//String text = page.extractText(false);
bw.write(text);
bw.flush();
bw.close();
fw.close();}
}
提取成果:
示例 3 提取 PDF 指定区域的文本内容
import com.spire.pdf.*;
import java.awt.geom.Rectangle2D;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
public class ExtractTextFromSpecificArea {public static void main(String[] args) throws IOException {
// 加载 PDF 文档
PdfDocument pdf = new PdfDocument();
pdf.loadFromFile("C:UsersTest1DesktopSample.pdf");
// 创立.txt 文件,用于保留提取的文本
File file=new File("output/ExtractTextFromASpecifiedArea.txt");
if(!file.exists()){file.delete();
}
file.createNewFile();
FileWriter fw=new FileWriter(file,true);
BufferedWriter bw=new BufferedWriter(fw);
// 获取第一页
PdfPageBase page = pdf.getPages().get(0);
// 提取第一页指定区域的文本
String text = page.extractText(new Rectangle2D.Float(80, 20, 500, 110));
bw.write(text);
bw.flush();
bw.close();
fw.close();}
}
提取成果:
正文完