如何使用 Apache POI 提取 docx（Word 2007 以上）

2023-12-06

你好，我正在使用 Apache POI 3.6 我已经创建了一些代码..

XWPFDocument doc = new XWPFDocument(new FileInputStream(file));
         wordxExtractor = new XWPFWordExtractor(doc);
         text = wordxExtractor.getText();

         System.out.println("adding docx " + file);
         d.add(new Field("content", text, Field.Store.NO, Field.Index.ANALYZED));

不幸的是，它产生了错误..

Exception in thread "main" java.lang.NoClassDefFoundError: org/dom4j/DocumentException
at org.apache.poi.openxml4j.opc.OPCPackage.init(OPCPackage.java:149)
at org.apache.poi.openxml4j.opc.OPCPackage.<init>(OPCPackage.java:136)
at org.apache.poi.openxml4j.opc.Package.<init>(Package.java:54)
at org.apache.poi.openxml4j.opc.ZipPackage.<init>(ZipPackage.java:98)
at org.apache.poi.openxml4j.opc.OPCPackage.open(OPCPackage.java:199)
at org.apache.poi.openxml4j.opc.OPCPackage.open(OPCPackage.java:178)
at org.apache.poi.util.PackageHelper.open(PackageHelper.java:53)
at org.apache.poi.xwpf.usermodel.XWPFDocument.<init>(XWPFDocument.java:98)
at org.apache.lucene.demo.Indexer.indexDocs(Indexer.java:153)
at org.apache.lucene.demo.Indexer.main(Indexer.java:88)

好像是用了构造函数

XWPFWordExtractor（OPCPackage容器）

但不是这个 ->

XWPFWordExtractor(XWPFDocument文档)

有人想知道为什么吗？或者知道如何提取 .docx 然后将其转换为字符串？

您需要将 dom4j 库添加到项目库的类路径中

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Text

msword

apachepoi

extract

docx

如何使用 Apache POI 提取 docx（Word 2007 以上）的相关文章

如何确保我的 IE 选项卡名称正确？

我使用此代码从 Word VBA 获取 Internet Explorer 的实例并从网页中抓取一些值我循环遍历 4 个项目以防万一有时我不小心抓住了一个名为 Windows Explorer 的东西我不知道那是什么来抓住 In
获取单个方程的脚本

在文本文件中输入 a 2 8 b 3 9 c 4 8 d 5 9 e a b f c d g 0 6 h 1 7 i e g j f h output i j 期望的输出输出 2 8 3 9 0 6 4 8 5 9 1 7 如果输入文件名
.doc 格式如何工作？

我最近了解了 docx 文件的基本结构它是一个特殊结构的 zip 存档但是 docx 的格式与 doc 不同 doc 文件如何工作文件格式结构等是什么这不是对你的问题的直接回答但我强烈建议阅读 Joel Spolsky 的文章
Apache POI 的 ProGuard 设置

我正在构建一个使用 Apache POI 库的应用程序当我调试应用程序在不运行 Proguard 的情况下编译它时一切都运行良好但是在导出 APK 后当我运行应用程序并打开 Excel 文件时出现以下异常 RuntimeExc
如何通过C#通过OpenXML从Word(.Docx)中提取OLE文件

我想用Openxml抽象 OLE package 从一个 docx 文件我不知道该怎么做并且在官方示例中没有找到任何相关示例请帮我这是我的尝试我通过 MS Office 2016 构建了一个 Docx 文件名为 Test doc
Android 如何使用意图发送文本和图像或任何对象？

我知道可以与以下人员分享短信ACTION SEND通过指定Intent EXTRA TEXT 同样的方法适用于图像 Intent EXTRA STREAM 但是如何将文本和图像添加到同一意图呢您可以通过意图发送文本和图像例如如果您要发
使用 OpenXML 在 Word 中插入换行符

我正在使用 openxml WordProcessingDocument 打开 Word 模板并将占位符 x1 替换为字符串除非我需要字符串包含换行符否则这工作正常如何将 x1 替换为可能包含 word 可以识别的换行符的文本我已经
如何在 Apache POI XWPF 文档中创建项目符号列表？

我想使用 Java 在 docx word 文档中创建项目符号编号列表我正在使用 Apache POI 3 10 库如果我理解正确的话步骤是这样的创建编号numbering doc createNumbering 将Abstrac
我可以在 UITextView 中以编程方式选择文本吗？

我想在 UITextView 上选择文本类似于我们点击时看到的默认选择和全选弹出选项我希望用户能够从我的自定义菜单中执行此操作我玩了 selectedRange 但这似乎并没有解决问题有任何想法吗 Thanks The se
从 tsv 文件 python 中提取数据

我有一个 TSV 文件如下所示 A B C D D 1 E 2 S D F G H 2 B 4 我想以这种方式将内容写入另一个 tsv 文件 A B C D D 1 A B C D E 2 S D F G H 2 S D F G B 4
如何在 iOS 上反转使用 CoreGraphics 渲染的 pdf 上的文本颜色？

我正在使用开源 PDF 查看库 VFR PDF Readerhttps github com vfr Reader https github com vfr Reader 我正在尝试实现夜间模式或黑色背景与白色文本我可以将背景设置为我
如何显示数字键盘

我阅读了其他几篇文章并使用 input setInputType TYPE NUMBER FLAG DECIMAL 确实打开了键盘但不是数字键盘这有什么技巧吗 give android inputType number 在你的 xml
如何防止移动浏览器调整文本大小

如何使文本在移动设备上的显示方式与在桌面设备上的显示方式相同浅粉色区域中的文本在桌面和移动设备上是相同的这正是我在推荐部分以及许多其他领域需要实现的目标谢谢 Desktop view Mobile view CSS testi
将2个暗淡数组“列表列表”输出到python中的文本文件

简单的问题我正在创建一个两个暗淡的数组 ddist 0 d for in 0 d 在下面的代码中使用列表它使用 gis 数据输出距离我只是想要一种简单的方法来获取数组列表的结果并将其输出到保持相同的 N N 结构的文本文件我过去曾
无法通过 Apache POI 3.6 检索数字格式和类别为货币的 Excel 单元格值

您好我正在解析 Excel 中具有特定格式的单元格其中数据格式字符串为 0 我想在该单元格内获取值但无法这样做有人可以帮忙吗目前使用此代码我得到的值为空白但在Excel中该值是例如40 美元 for Row row sheet
在 Python 中按标题将 docx 拆分为单独的文件

我想编写一个程序来获取我的 docx 文件迭代它们并根据标题将每个文件拆分为多个单独的文件每个 docx 中都有几篇文章每篇文章都有一个标题 1 及其下方的文本因此如果我的原始 file1 docx 有 4 篇文章我希望将其分
Word 2010 自动化：“转到书签”

我有一个用 Delphi 7 编写的程序它打开一个基于模板的新 Word 文档文档打开后系统会自动跳转到书签在模板中预定义并在其中添加一些文本以下代码在 Word 2003 中工作正常但会导致invalid variant o
如何在文本集中创建所有字符组合？

例如我有这样的文本集第 1 栏 a b 第 2 栏 l m n 第 3 栏 v w x y 我想将它们组合起来以获得如下输出 alv alw alx aly amv amw amx amy 这将输出 24 种文本组合如果我只使用前两列
使用 C# 从文本中删除数字

我有一个要处理的文本文件其中有一些数字我只想要其中的文字而不是其他任何东西我成功删除了标点符号但是如何删除数字呢我想要使用 C 代码另外我想删除长度大于 10 的单词如何使用 Reg 表达式来做到这一点您可以使用正则表
将 OoXml 插入单词抛出错误：未知

我一直在尝试通过office js将OOXML插入到word文档的正文内容中insertOoXML 方法我什至尝试过最简单的实现认为我在尝试替换 XML 本身中的 fieldCodes 时做了一些不正确的事情所有结果都是这样Error

随机推荐

Android 应用程序，与插入 USB 端口的设备通信

我正在考虑一个 Android 应用程序可能还有一个附带的物理设备并且我正在尝试弄清楚这是否可行 1 假设我将 Android 设备连接到 PC 上安装在PC上的应用程序是否可以与手机上运行的应用程序进行通信我只需要一种非常简单的数
php 7 中的同步块

我来自java背景那里有同步块 Synchronized 关键字可防止并发访问块多个线程的代码或对象 java中的示例代码 public void addName String name synchronized this lastNa
Python3中带反斜杠的正则表达式

我正在尝试使用正则表达式来匹配一个字符串中的特定子字符串例如匹配 ue04a in ue04a abc 但似乎有些不对劲这是我的代码 m re match ue d a z ue04a abc 返回的m是一个空对象即使我尝试在模式中使
如何在 Android 版 DropboxAPI v2 中进行身份验证？

我刚刚开始正在遵循本教程 https www dropbox com developers documentation java tutorial 但没有登录没有什么会要求您输入用户名密码这意味着我实际上无法获得每个具有共享到 D
如何在spark 2.0中使用Cassandra Context

在 Spark 的早期版本如 1 6 1 中我使用 Spark Context 创建 Cassandra Context import org apache spark Logging SparkContext SparkConf co
如何从规范化的电话号码中识别国家/地区？

我有一个国际电话号码列表和一个国家地区电话代码列表我想从数字中识别国家地区但我找不到快速而优雅的方法来做到这一点任何想法我唯一得到的是进行硬编码检查例如查看第一个数字查看第二个数字如果是 X 则检查第三个数字如果第二个
php 俄语语言问题

我使用curl 获取俄语语言的utf 8 页面如果我回显文本它会显示良好然后我使用这样的代码 dom new domDocument load the html into the object dom gt loadHTML html
自动加载常量时检测到循环依赖

将我的操作系统更新为 Maverics 后我无法在 Rails 中创建新项目我总是只看到 Circular dependency detected while autoloading constant LinksController o
如何从 gridview 页脚 C# 中的文本框中获取值？

就像标题中一样如何处理按钮单击 GridView 页脚中的哪个按钮也文件 aspx 看起来像这样
获取可执行文件的服务路径

考虑下图我写了下面的代码应该得到可执行文件的路径服务的一部分如图中突出显示基本上我下面给出的代码片段将写入另一个 cpp 文件中该文件将生成lpa exe并且应该作为服务运行我试过获取模块文件名如果可执行文件 lpa exe 正常
Mapstruct - 如何在生成的映射器类中注入 spring 依赖项

我需要在生成的映射器实现中注入一个 spring 服务类以便我可以通过以下方式使用它 Mapping target x expression java myservice findById id 这适用于 Mapstruct 1 0 吗
Kotlin 语言在运行时获取类

假设我们有以下内容 val person Bill 有人可以解释一下这两者之间的区别吗 val kClass1 person javaClass kotlin vs val kClass2 person class 我什么时候应该打电话给其
如何验证电话号码和 -

用于验证电话号码并包含 0 9 6 14 0 9 我必须通过验证电话号码例如 333 333 3333 这是有效号码如何使用自定义有效的正则表达式到电话号码好吧这取决于你想有多严格这个正则表达式似乎并不是特别严格这个正则表达
如何使用新的（v3）Google Drive API 导出特定工作表

我正在尝试从电子表格在 Google 云端硬盘上下载特定的工作表但无法找到执行此操作的方法我正在使用Python客户端API库 v3 并在export media 函数中传递file id和mimeType 如下所示 request
html/html5中自定义的输入文本框

Actually I want to implement a text box as shown in the figure 我希望用户应该能够在所需的空间中输入数字请注意它是透明的以便背景可见涉及 html5 canvas 的解决
Phonegap iOS Safari 调试工作流程

我一直在测试 Phonegap Build 使用类似的工作流程如下所述教程开发 PhoneGap 应用程序我可以构建并部署到我的设备但无法通过 Safari 进行远程调试如此处答案中所述你能看出Phonegap iOS应用程序
如何将 JSON 数据加载到 Highchart？

my Json看起来像这样 1332879360000 0 300 0 1332797760000 0 353 0 1332799320000 0 358 0 1332879780000 0 302 0 1332800160000 0 35
使用 Mockito 通过反射来模拟方法

我们使用 Mock Factory 为我们的开发人员提供关于模拟功能的最大可能舒适度同时减少对 mockito 本身的了解为此我们的 Mock Factory 提供了一种方法来创建模拟给定类名方法名通过正则表达式和给定的返回值
如何制作一堆可检测手势的自定义绘制形状

我设法用以下方法制作了这 3 个奇怪的形状CustomPainter the 滑动按钮形状平移按钮形状 and 倾斜按钮形状分别我想让它们可检测到所以我添加了GestureDetector但它不能正常工作这就是我堆叠自定义绘制形状的
如何使用 Apache POI 提取 docx（Word 2007 以上）

你好我正在使用 Apache POI 3 6 我已经创建了一些代码 XWPFDocument doc new XWPFDocument new FileInputStream file wordxExtractor new XWPFWor

如何使用 Apache POI 提取 docx（Word 2007 以上）

如何使用 Apache POI 提取 docx（Word 2007 以上） 的相关文章

随机推荐

热门标签

如何使用 Apache POI 提取 docx（Word 2007 以上）的相关文章