共计 700 个字符,预计需要花费 2 分钟才能阅读完成。
全世界大概有 10 亿人应用 Microsoft Office,DOCX 格局是在办公室之间替换文档文件的最风行的事实标准。尽管 DOCX 是一种简单的格局,但不少包含 ABAP 在内的开发人员,都心愿手动解析它以实现更简略的工作,例如索引、转换为 TXT 和进行其余小的批改。
PDF 格局不能算是 docx 文件的竞争对手,因为 PDF 无奈编辑并且它们不蕴含残缺的文档构造,因而它们只能进行无限的本地更改,例如水印、签名等。这就是为什么大多数业务文档都是以 DOCX 格局创立的;目前尚未存在好的替代品能够代替它。
尽管对于 Open Office XML 的 ECMA 标准,有一本多达 5,000 页的宏大手册,但如果咱们仅仅想通过 ABAP 语言操作 docx 文件,不须要把这 5000 页的文档全副过完。
了解该格局的最佳办法是应用 MSWord 创立一个简略的单字文档,并察看编辑文档如何更改底层 XML。
DOCX 文件是 XML 文件的 ZIP 存档。如果您创立一个新的、空的 Microsoft Word 文档,在外面写一个单词“Test”并解压缩它的内容,您将看到以下文件构造:
只管咱们创立了一个简略的文档,但 Microsoft Word 中的保留过程曾经生成了 XML 格局的默认主题、文档属性、字体表等。DOCX 中的所有文件都是 XML 文件,即便是带有“.rels”扩展名的文件也不例外。
首先,让咱们删除未应用的内容并关注蕴含次要文本元素的 document.xml。删除文件时,请确保已从其余 xml 文件中删除了对其的所有关系援用。这是一个对于我如何革除对 app.xml 和 core.xml 的依赖项的代码差别示例。如果您有任何未解决 / 缺失的援用,MSWord 将认为该文件已损坏。