提取Word文档中的文本是一种常见的需要,咱们能够间接复制并粘贴保留到指定文件中。但这一办法更为实用于文本内容较少时。除了费时费力地手动保留以外,咱们能够通过编程语言编写代码来一次性提取Word文档中的大量内容。在这里我将介绍如何通过 Java程序来实现这个性能。所用到的产品是Free Spire.Doc for Java。具体操作和代码请参考下文。
程序环境
在进行操作之前,请先将jar导入到Java程序中,请参考以下两种导入办法:
办法一:如果您应用的是 maven,能够通过增加以下代码到我的项目的 pom.xml 文件中,将 jar文件导入到应用程序中。
<repositories> <repository> <id>com.e-iceblue</id> <name>e-iceblue</name> <url>https://repo.e-iceblue.cn/repository/maven-public/</url> </repository></repositories><dependencies> <dependency> <groupId>e-iceblue</groupId> <artifactId>spire.doc.free</artifactId> <version>5.2.0</version> </dependency></dependencies>
办法二:如果您没有应用 maven,则能够从此链接下载Free Spire.Doc for Java,找到lib文件夹下的Spire.doc.jar并进行解压;而后在IDEA中创立一个新我的项目,顺次点击“文件”(File),“我的项目构造”(Project Structure),“组件”(Modules),“依赖项”(Dependencies),再点击右方绿色“+”下的第一个选项“jar文件或门路”(JARs or Directories),找到解压后的Spire.doc.jar 文件,点击确认,将其导入到我的项目中。
具体办法和示例代码
• 创立一个Document对象来加载Word文档。
• 应用getText()办法获取文档中的文本。
• 调用writeStringToTxt办法将文本写入名为ExtractedText.txt的txt文件中。
import com.spire.doc.Document;import java.io.FileWriter;import java.io.IOException;public class ExtractText { public static void main(String[] args) throws IOException { //加载Word文档 Document document = new Document(); document.loadFromFile("sample.docx"); //获取文档中的文本保留为String String text=document.getText(); //将String写入Txt文件 writeStringToTxt(text,"ExtractedText.txt"); } public static void writeStringToTxt(String content, String txtFileName) throws IOException { FileWriter fWriter= new FileWriter(txtFileName,true); try { fWriter.write(content); }catch(IOException ex){ ex.printStackTrace(); }finally{ try{ fWriter.flush(); fWriter.close(); } catch (IOException ex) { ex.printStackTrace(); } } }}