docx格式的word文档其实是一个压缩包,文本内容、格式、图片等是分别存储在不同的文件中的,office通过这些文件还原出我们所看到的word文档。下面以一个简单的示例来说明docx格式。
用程序来提取文本内容,先要解压缩,然后再解析document.xml文件,提取出<w:t></w:t>标签中的 内容。