关于java:如何通过Java程序提取Word中的文本

9次阅读

共计 1578 个字符,预计需要花费 4 分钟才能阅读完成。

提取 Word 文档中的文本是一种常见的需要,咱们能够间接复制并粘贴保留到指定文件中。但这一办法更为实用于文本内容较少时。除了费时费力地手动保留以外,咱们能够通过编程语言编写代码来一次性提取 Word 文档中的大量内容。在这里我将介绍如何通过 Java 程序来实现这个性能。所用到的产品是 Free Spire.Doc for Java。具体操作和代码请参考下文。

程序环境

在进行操作之前,请先将 jar 导入到 Java 程序中,请参考以下两种导入办法:
办法一 :如果您应用的是 maven,能够通过增加以下代码到我的项目的 pom.xml 文件中,将 jar 文件导入到应用程序中。

<repositories>
    <repository>
        <id>com.e-iceblue</id>
        <name>e-iceblue</name>
        <url>https://repo.e-iceblue.cn/repository/maven-public/</url>
    </repository>
</repositories>
<dependencies>
    <dependency>
        <groupId>e-iceblue</groupId>
        <artifactId>spire.doc.free</artifactId>
        <version>5.2.0</version>
    </dependency>
</dependencies>

办法二 :如果您没有应用 maven,则能够从此链接下载 Free Spire.Doc for Java,找到 lib 文件夹下的 Spire.doc.jar 并进行解压;而后在 IDEA 中创立一个新我的项目,顺次点击“文件”(File),“我的项目构造”(Project Structure),“组件”(Modules),“依赖项”(Dependencies),再点击右方绿色“+”下的第一个选项“jar 文件或门路”(JARs or Directories),找到解压后的 Spire.doc.jar 文件,点击确认,将其导入到我的项目中。

具体办法和示例代码

• 创立一个 Document 对象来加载 Word 文档。
• 应用 getText() 办法获取文档中的文本。
• 调用 writeStringToTxt 办法将文本写入名为 ExtractedText.txt 的 txt 文件中。

import com.spire.doc.Document;

import java.io.FileWriter;
import java.io.IOException;

public class ExtractText {public static void main(String[] args) throws IOException {

        // 加载 Word 文档
        Document document = new Document();
        document.loadFromFile("sample.docx");

        // 获取文档中的文本保留为 String
        String text=document.getText();

        // 将 String 写入 Txt 文件
        writeStringToTxt(text,"ExtractedText.txt");
    }

    public static void writeStringToTxt(String content, String txtFileName) throws IOException {FileWriter fWriter= new FileWriter(txtFileName,true);
        try {fWriter.write(content);
        }catch(IOException ex){ex.printStackTrace();
        }finally{
            try{fWriter.flush();
                fWriter.close();} catch (IOException ex) {ex.printStackTrace();
            }
        }
    }
}

正文完
 0