如何使用 Apache POI 提取 docx(Word 2007 以上)

2023-12-06

你好,我正在使用 Apache POI 3.6 我已经创建了一些代码..

XWPFDocument doc = new XWPFDocument(new FileInputStream(file));
         wordxExtractor = new XWPFWordExtractor(doc);
         text = wordxExtractor.getText();

         System.out.println("adding docx " + file);
         d.add(new Field("content", text, Field.Store.NO, Field.Index.ANALYZED));

不幸的是,它产生了错误..

Exception in thread "main" java.lang.NoClassDefFoundError: org/dom4j/DocumentException
at org.apache.poi.openxml4j.opc.OPCPackage.init(OPCPackage.java:149)
at org.apache.poi.openxml4j.opc.OPCPackage.<init>(OPCPackage.java:136)
at org.apache.poi.openxml4j.opc.Package.<init>(Package.java:54)
at org.apache.poi.openxml4j.opc.ZipPackage.<init>(ZipPackage.java:98)
at org.apache.poi.openxml4j.opc.OPCPackage.open(OPCPackage.java:199)
at org.apache.poi.openxml4j.opc.OPCPackage.open(OPCPackage.java:178)
at org.apache.poi.util.PackageHelper.open(PackageHelper.java:53)
at org.apache.poi.xwpf.usermodel.XWPFDocument.<init>(XWPFDocument.java:98)
at org.apache.lucene.demo.Indexer.indexDocs(Indexer.java:153)
at org.apache.lucene.demo.Indexer.main(Indexer.java:88)

好像是用了构造函数

XWPFWordExtractor(OPCPackage容器)

但不是这个 ->

XWPFWordExtractor(XWPFDocument文档)

有人想知道为什么吗? 或者知道如何提取 .docx 然后将其转换为字符串?


您需要将 dom4j 库添加到项目库的类路径中

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 Apache POI 提取 docx(Word 2007 以上) 的相关文章

  • 如何确保我的 IE 选项卡名称正确?

    我使用此代码从 Word VBA 获取 Internet Explorer 的实例 并从网页中抓取一些值 我循环遍历 4 个项目 以防万一 有时我不小心抓住了一个名为 Windows Explorer 的东西 我不知道那是什么 来抓住 In
  • 获取单个方程的脚本

    在文本文件中输入 a 2 8 b 3 9 c 4 8 d 5 9 e a b f c d g 0 6 h 1 7 i e g j f h output i j 期望的输出 输出 2 8 3 9 0 6 4 8 5 9 1 7 如果输入文件名
  • .doc 格式如何工作?

    我最近了解了 docx 文件的基本结构 它是一个特殊结构的 zip 存档 但是 docx 的格式与 doc 不同 doc 文件如何工作 文件格式 结构等是什么 这不是对你的问题的直接回答 但我强烈建议阅读 Joel Spolsky 的文章
  • Apache POI 的 ProGuard 设置

    我正在构建一个使用 Apache POI 库的应用程序 当我调试应用程序 在不运行 Proguard 的情况下编译它 时 一切都运行良好 但是在导出 APK 后 当我运行应用程序并打开 Excel 文件时 出现以下异常 RuntimeExc
  • 如何通过C#通过OpenXML从Word(.Docx)中提取OLE文件

    我想用Openxml抽象 OLE package 从一个 docx 文件 我不知道该怎么做 并且在官方示例中没有找到任何相关示例 请帮我 这是我的尝试 我通过 MS Office 2016 构建了一个 Docx 文件 名为 Test doc
  • Android 如何使用意图发送文本和图像或任何对象?

    我知道可以与以下人员分享短信ACTION SEND通过指定Intent EXTRA TEXT 同样的方法适用于图像 Intent EXTRA STREAM 但是如何将文本和图像添加到同一意图呢 您可以通过意图发送文本和图像 例如 如果您要发
  • 使用 OpenXML 在 Word 中插入换行符

    我正在使用 openxml WordProcessingDocument 打开 Word 模板并将占位符 x1 替换为字符串 除非我需要字符串包含换行符 否则这工作正常 如何将 x1 替换为可能包含 word 可以识别的换行符的文本 我已经
  • 如何在 Apache POI XWPF 文档中创建项目符号列表?

    我想使用 Java 在 docx word 文档中创建项目符号 编号列表 我正在使用 Apache POI 3 10 库 如果我理解正确的话 步骤是这样的 创建编号numbering doc createNumbering 将Abstrac
  • 我可以在 UITextView 中以编程方式选择文本吗?

    我想在 UITextView 上选择文本 类似于我们点击时看到的默认 选择 和 全选 弹出选项 我希望用户能够从我的自定义菜单中执行此操作 我玩了 selectedRange 但这似乎并没有解决问题 有任何想法吗 Thanks The se
  • 从 tsv 文件 python 中提取数据

    我有一个 TSV 文件 如下所示 A B C D D 1 E 2 S D F G H 2 B 4 我想以这种方式将内容写入另一个 tsv 文件 A B C D D 1 A B C D E 2 S D F G H 2 S D F G B 4
  • 如何在 iOS 上反转使用 CoreGraphics 渲染的 pdf 上的文本颜色?

    我正在使用开源 PDF 查看库 VFR PDF Readerhttps github com vfr Reader https github com vfr Reader 我正在尝试实现 夜间模式 或黑色背景与白色文本 我可以将背景设置为我
  • 如何显示数字键盘

    我阅读了其他几篇文章并使用 input setInputType TYPE NUMBER FLAG DECIMAL 确实打开了键盘 但不是数字键盘 这有什么技巧吗 give android inputType number 在你的 xml
  • 如何防止移动浏览器调整文本大小

    如何使文本在移动设备上的显示方式与在桌面设备上的显示方式相同 浅粉色区域中的文本在桌面和移动设备上是相同的 这正是我在 推荐 部分 以及许多其他领域 需要实现的目标 谢谢 Desktop view Mobile view CSS testi
  • 将2个暗淡数组“列表列表”输出到python中的文本文件

    简单的问题 我正在创建一个两个暗淡的数组 ddist 0 d for in 0 d 在下面的代码中使用列表 它使用 gis 数据输出距离 我只是想要一种简单的方法来获取数组 列表的结果并将其输出到保持相同的 N N 结构的文本文件 我过去曾
  • 无法通过 Apache POI 3.6 检索数字格式和类别为货币的 Excel 单元格值

    您好 我正在解析 Excel 中具有特定格式的单元格 其中数据格式字符串为 0 我想在该单元格内获取值 但无法这样做 有人可以帮忙吗 目前使用此代码我得到的值为空白 但在Excel中该值是例如40 美元 for Row row sheet
  • 在 Python 中按标题将 docx 拆分为单独的文件

    我想编写一个程序来获取我的 docx 文件 迭代它们并根据标题将每个文件拆分为多个单独的文件 每个 docx 中都有几篇文章 每篇文章都有一个 标题 1 及其下方的文本 因此 如果我的原始 file1 docx 有 4 篇文章 我希望将其分
  • Word 2010 自动化:“转到书签”

    我有一个用 Delphi 7 编写的程序 它打开一个基于模板的新 Word 文档 文档打开后 系统会自动跳转到书签 在模板中预定义 并在其中添加一些文本 以下代码在 Word 2003 中工作正常 但会导致invalid variant o
  • 如何在文本集中创建所有字符组合?

    例如 我有这样的文本集 第 1 栏 a b 第 2 栏 l m n 第 3 栏 v w x y 我想将它们组合起来以获得如下输出 alv alw alx aly amv amw amx amy 这将输出 24 种文本组合 如果我只使用前两列
  • 使用 C# 从文本中删除数字

    我有一个要处理的文本文件 其中有一些数字 我只想要其中的文字 而不是其他任何东西 我成功删除了标点符号 但是如何删除数字呢 我想要使 用 C 代码 另外 我想删除长度大于 10 的单词 如何使用 Reg 表达式来做到这一点 您可以使用正则表
  • 将 OoXml 插入单词抛出错误:未知

    我一直在尝试通过office js将OOXML插入到word文档的正文内容中insertOoXML 方法 我什至尝试过最简单的实现 认为我在尝试替换 XML 本身中的 fieldCodes 时做了一些不正确的事情 所有结果都是这样Error

随机推荐

  • Android 应用程序,与插入 USB 端口的设备通信

    我正在考虑一个 Android 应用程序 可能还有一个附带的物理设备 并且我正在尝试弄清楚这是否可行 1 假设我将 Android 设备连接到 PC 上 安装在PC上的应用程序是否可以与手机上运行的应用程序进行通信 我只需要一种非常简单的数
  • php 7 中的同步块

    我来自java背景 那里有同步块 Synchronized 关键字可防止并发访问块 多个线程的代码或对象 java中的示例代码 public void addName String name synchronized this lastNa
  • Python3中带反斜杠的正则表达式

    我正在尝试使用正则表达式来匹配一个字符串中的特定子字符串 例如匹配 ue04a in ue04a abc 但似乎有些不对劲 这是我的代码 m re match ue d a z ue04a abc 返回的m是一个空对象 即使我尝试在模式中使
  • 如何在 Android 版 DropboxAPI v2 中进行身份验证?

    我刚刚开始 正在遵循本教程 https www dropbox com developers documentation java tutorial 但没有登录 没有什么会要求您输入用户名 密码 这意味着我实际上无法获得每个具有 共享到 D
  • 如何在spark 2.0中使用Cassandra Context

    在 Spark 的早期版本 如 1 6 1 中 我使用 Spark Context 创建 Cassandra Context import org apache spark Logging SparkContext SparkConf co
  • 如何从规范化的电话号码中识别国家/地区?

    我有一个国际电话号码列表和一个国家 地区电话代码列表 我想从数字中识别国家 地区 但我找不到快速而优雅的方法来做到这一点 任何想法 我唯一得到的是进行硬编码检查 例如 查看第一个数字 查看第二个数字 如果是 X 则检查第三个数字 如果第二个
  • php 俄语语言问题

    我使用curl 获取俄语语言的utf 8 页面 如果我回显文本 它会显示良好 然后我使用这样的代码 dom new domDocument load the html into the object dom gt loadHTML html
  • 自动加载常量时检测到循环依赖

    将我的操作系统更新为 Maverics 后 我无法在 Rails 中创建新项目 我总是只看到 Circular dependency detected while autoloading constant LinksController o
  • 如何从 gridview 页脚 C# 中的文本框中获取值?

    就像标题中一样 如何处理按钮单击 GridView 页脚中的哪个按钮也 文件 aspx 看起来像这样
  • 获取可执行文件的服务路径

    考虑下图 我写了下面的代码应该得到可执行文件的路径服务的一部分 如图中突出显示 基本上我下面给出的代码片段将写入另一个 cpp 文件中 该文件将生成lpa exe并且应该作为服务运行 我试过获取模块文件名如果可执行文件 lpa exe 正常
  • Mapstruct - 如何在生成的映射器类中注入 spring 依赖项

    我需要在生成的映射器实现中注入一个 spring 服务类 以便我可以通过以下方式使用它 Mapping target x expression java myservice findById id 这适用于 Mapstruct 1 0 吗
  • Kotlin 语言在运行时获取类

    假设我们有以下内容 val person Bill 有人可以解释一下这两者之间的区别吗 val kClass1 person javaClass kotlin vs val kClass2 person class 我什么时候应该打电话给其
  • 如何验证电话号码和 -

    用于验证电话号码并包含 0 9 6 14 0 9 我必须通过 验证电话号码 例如 333 333 3333 这是有效号码 如何使用 自定义有效的正则表达式到电话号码 好吧 这取决于你想有多严格 这个正则表达式似乎并不是特别严格 这个正则表达
  • 如何使用新的(v3)Google Drive API 导出特定工作表

    我正在尝试从电子表格 在 Google 云端硬盘上 下载特定的工作表 但无法找到执行此操作的方法 我正在使用Python客户端API库 v3 并在export media 函数中传递file id和mimeType 如下所示 request
  • html/html5中自定义的输入文本框

    Actually I want to implement a text box as shown in the figure 我希望用户应该能够在所需的空间中输入数字 请注意 它是透明的 以便背景可见 涉及 html5 canvas 的解决
  • Phonegap iOS Safari 调试工作流程

    我一直在测试 Phonegap Build 使用类似的工作流程 如下所述 教程 开发 PhoneGap 应用程序 我可以构建并部署到我的设备 但无法通过 Safari 进行远程调试 如此处答案中所述 你能看出Phonegap iOS应用程序
  • 如何将 JSON 数据加载到 Highchart?

    my Json看起来像这样 1332879360000 0 300 0 1332797760000 0 353 0 1332799320000 0 358 0 1332879780000 0 302 0 1332800160000 0 35
  • 使用 Mockito 通过反射来模拟方法

    我们使用 Mock Factory 为我们的开发人员提供关于模拟功能的最大可能舒适度 同时减少对 mockito 本身的了解 为此 我们的 Mock Factory 提供了一种方法来创建模拟 给定类名 方法名 通过正则表达式 和给定的返回值
  • 如何制作一堆可检测手势的自定义绘制形状

    我设法用以下方法制作了这 3 个奇怪的形状CustomPainter the 滑动按钮形状 平移按钮形状 and 倾斜按钮形状分别 我想让它们可检测到 所以我添加了GestureDetector但它不能正常工作 这就是我堆叠自定义绘制形状的
  • 如何使用 Apache POI 提取 docx(Word 2007 以上)

    你好 我正在使用 Apache POI 3 6 我已经创建了一些代码 XWPFDocument doc new XWPFDocument new FileInputStream file wordxExtractor new XWPFWor