poi 顺序解析word_POI解析word文档,支持DOC和DOCX版本

2023-11-03

一、简介

Apache POI是一个开源的利用Java读写Excel、WORD等微软OLE2组件文档的项目。最新的3.5版本有很多改进,加入了对采用OOXML格式的Office 2007支持,如xlsx、docx、pptx文档。

二、POI组成部分概览

以下是POI的几个重要组成部分,以及各组件的功能概述。

POIFS是该项目的最古老,最稳定的一部分。.这是格式化OLE 2复合文档为纯Java的接口。 它同时支持读写功能。

所有的组件,最终都依赖于它的定义

HSSF 和 XSSF

HSSF: MS-Excel 97-2003(.xls),基于BIFF8格式的JAVA接口。

XSSF:MS-Excel 2007+(.xlsx),基于OOXML格式的JAVA接口。

HWPF 和XWPF

HWPF: MS-Word 97-2003(.doc),基于BIFF8格式的JAVA接口。只支持.doc文件简单的操作,读写能力有限。本API为POI项目早期开发,很不幸的 是主要负责HWPF模块开发的工程师-“Ryan Ackley”已经离开Apache组织,现在该模块没有人维护、更新、完善。

XWPF:MS-Word 2007+(.docx),基于OOXML格式的JAVA接口。较HWPF功能完善。

三、所需JAR包

这里我使用3.9.x版本

poi-3.9-20121203.jar

poi-excelant-3.9-20121203.jar

poi-ooxml-3.9-20121203.jar

poi-ooxml-schemas-3.9-20121203.jar

poi-scratchpad-3.9-20121203.jar

四、代码

解析doc格式的文档

InputStream is = new FileInputStream(new File("E:\\TempDirectory\\knowledge_import.doc"));

WordExtractor wordExtractor = new WordExtractor(is);

System.out.println("【 使用getText()方法提取的Word文件的内容如下所示:】");

String text = wordExtractor.getText();

System.out.println(text);

解析docx格式的文档

XWPFWordExtractor docx = new XWPFWordExtractor(POIXMLDocument.openPackage("E:\\TempDirectory\\knowledge_import.docx"));

//提取.docx正文文本

String text = docx.getText();

System.out.println("解析DOCX格式的word文档!"+text);

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

poi 顺序解析word_POI解析word文档,支持DOC和DOCX版本 的相关文章

  • java获取某个月自然周的个数

    java获取某个月自然周的个数 private int getWeeks Integer year Integer month 天数 Calendar c Calendar getInstance c set Calendar YEAR y
  • python爬虫:多线程收集/验证IP从而搭建有效IP代理池

    文章目录 搭建代理IP池 1 IP来源 2 初步收集IP 3 可用性检验 4 IP池存储展示 5 单线程IP池完整实现 6 多线程IP验证 搭建代理IP池 1 IP来源 了解到代理IP及其端口的价值后 我们知道必须拥有一定数目的可用IP才能
  • 基于永磁同步发电机的风力发电系统连接到可控的三相整流器(Simulink)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Simulink实现 1 概述 在基于永磁同步发电机的风力发电系统中 我们
  • Macos安装LLVM

    LLVM 安装及使用 LLVM项目是模块化 可重用的编译器和工具链技术的集合 用LLVM可以创建编译器 著名的编译器Clang就是LLVM项目的子项目 平台 MacBook 安装包管理器homebrew 按下键盘上的 键 输入 终端 打开第
  • 决策树在计算机视觉中的应用及matlab代码实现

    决策树在计算机视觉中的应用及matlab代码实现 决策树是一种基于预测模型的有监督学习算法 可以用于分类问题和回归问题 在计算机视觉中 决策树算法广泛应用于图像分类 目标检测和人脸识别等领域 一 决策树算法原理 决策树算法基于属性的划分来对
  • DMA(直接内存访问)

    如有雷同 纯属总结 直接内存访问 Direct Memory Access DMA 直接内存访问是一种内存访问技术 它允许计算机内部的某些硬件子系统 外设 可以独立地直接的读写系统内存 不需要CPU的介入处理 在同等程度的处理器负担下 DM
  • MySQL中的ROWNUM的实现

    MySQL 几乎模拟了 Oracle SQL Server等商业数据库的大部分功能 函数 但很可惜 到目前的版本 5 1 33 为止 仍没有实现ROWNUM这个功能 下面介绍几种具体的实现方法 建立实验环境如下 mysql gt creat
  • python 操作excel 教程_Python学习笔记(十六)—Python操作Excel

    Python中对Excel文件的操作包括 读 写 修改 如果要对其进行如上的操作需要导入Python的第三方模块 xlrd xlwd xlutils 其分别对应Python的读 写 修改的操作 一 安装Python的第三方模块 二 操作Ex
  • 论文笔记:FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting

    2022 ICML 1 Intro 长时间序列问题是一个研究很广泛的问题 RNN以及变体会遇到梯度消失 梯度爆炸 这会在很大程度上限制他们的表现 Transformer的方法会导致很高的计算复杂度 以及很大的内存消耗 这也会使得在长时间序列
  • 运放电路中电容的一些特殊用法

    最近在进行实验室项目PCB设计的时候 看到一些运放电路中总有一些电容 但是由于自己非电子专业科班出身 对于这些电容的用法不是很懂 于是就自己上网搜集资料 先总结如下 方便将来回顾 1 https zhidao baidu com quest
  • Java加密技术(一)——BASE64与单向加密算法MD5&SHA&MAC

    加密解密 曾经是我一个毕业设计的重要组件 在工作了多年以后回想当时那个加密 解密算法 实在是太单纯了 言归正传 这里我们主要描述Java已经实现的一些加密解密算法 最后介绍数字证书 如基本的单向加密算法 BASE64 严格地说 属于编码格式
  • Hive基础调优详解

    本文基本涵盖以下内容 一 基于Hadoop的数据仓库Hive基础知识 二 HiveSQL语法 三 Hive性能优化 四 Hive性能优化之数据倾斜专题 五 HiveSQL优化十二板斧 六 Hive面试题 一 七 Hive Hadoop高频面
  • FCA-FineReport考试(2023-03-16)

    Part 1 判断题 总分 56分 得分 50 第1题 判断题 普通用户登录到决策系统平台与管理员登录界面相同 得分 0分 满分 2分 正确答案 A 你的答案 B 错误 A 正确 B 错误 第2题 判断题 部署报表工程到Tomcat 可以不
  • 如何使用Python将仅支持在线浏览的国家标准下载到本地并保存为PDF文件

    如何使用Python将仅支持在线浏览的国家标准下载到本地并保存为PDF文件 在日常工作和学习中 我们经常需要查阅国家标准以获取相关的技术规范和指导文件 然而 有些国家标准的在线浏览器界面并不方便 我们可能更希望将它们保存为本地的PDF文件以
  • 惯师科技给您拜年啦!

  • Python3: 上下文管理器、with语法、同时打开两个文件

    太长不看 使用with语句实现上下文管理器打开多个资源 例如打开两个文件 import contextlib contextlib contextmanager def open files file1 file2 try f1 open
  • selectpicker用法

    selectpicker selectpicker 初始化 style btn success 显示样式 size 20 selectpicker selectpicker val array 给多选selectpicker赋值 array
  • 高匿HTTP代理要如何挑选?

    近期 我经常收到此类问题 今天就来说清楚 很多时候 高匿HTTP代理能很好帮助解决用户的计算机安全和个人隐私安全问题 所以现在企业爬虫或者开发者个人需要用到HTTP代理的时候 都会选择高匿名级别的 不过目前市面上的HTTP代理以匿名程度划分
  • RDP微软远程连接工具:Microsoft Remote Desktop for Mac 中英直装版

    Microsoft Remote Desktop可以很方便地在Android安卓手机 平板或者iPhone iPad等iOS设备 甚至是Mac上直接远程连接并控制玩转PC电脑上的Windows 并且Microsoft Remote Desk

随机推荐

  • Oracle 自动共享内存管理(ASMM)与自动内存管理(AMM)

    相关参数 MEMORY MAX TARGET 不可动态调整 代表内存 SGA PGA 的最大值 SQL gt ALTER SYSTEM SET MEMORY MAX TARGET 1000M SCOPE SPFILE MEMORY TARG
  • 基于51单片机的水位水质检测系统Proteus仿真原理图PCB

    功能 0 本系统采用STC89C52作为单片机 1 LCD1602液晶实时显示水位 水质百分比 2 按键设置水位水质阈值并通过液晶显示 3 具备4个LED分别作为水位水质的上下限指示灯 4 具备声光报警功能 5 设置的阈值数据掉电不丢失 6
  • 静电、浪涌与TVS(测试标准、参数、选型)

    静电 浪涌与TVS 测试标准 参数 选型 作者 AirCity 2020 2 14 Aircity007 sina com 本文所有权归作者Aircity所有 ESD和浪涌问题往往是基带工程师最头疼的问题 因为测试标准严苛 问题神出鬼没 特
  • 如何输出long long型数据

    include
  • 每日学术速递6.13

    CV 计算机视觉 ML 机器学习 RL 强化学习 NLP 自然语言处理 Subjects cs CV 1 Tracking Everything Everywhere All at Once 标题 一次跟踪所有地方的一切 作者 Qianqi
  • gcc: command not found

    在linux出现gcc command nof found时 查看是否已经安装了gcc 查看命令 rpm q gcc root localhost local rpm q gcc package gcc is not installed从g
  • 蓝桥杯真题:回文日期

    题目描述 2020 年春节期间 有一个特殊的日期引起了大家的注意 2020 年 2 月 2 日 因为如果将这个日期按 yyyymmdd 的格式写成一个 8 位数是 20200202 恰好是一个回文数 我们称这样的日期是回文日期 有人表示 2
  • ActivityThread分析

    以前看了很多 时间长了都忘了 所以还是勤快点 把看到的都记下来 算是给自己点积累 Activity启动分为很多种情况 这里说的是打开新的应用程序第一个Activity的流程 1 AcitivityManager产生新进程 新进程从andro
  • 打印机的共享设置方法

    共享打印机的前提是 共享的这台电脑和要连接打印机的这些电脑必须在同一个局域网中 第一步 在开始菜单当中 找到设备和打印机 这里有个前提 就是要共享的这台打印机必须已经连接并安装好驱动程序 第二步 找到我们要共享的这台打印机图标 第三步 在这
  • TOMCAT-部署项目-tomcat 不能多启动问题解决方案

    tomcat 不能多启动问题 解决方案 更改tomcat server xml 所有涉及端口 8089 端口 8005 8089 8443 8009 8088 端口 8006 8088 8444 8010
  • Python数据分析-绘图-2-Seaborn进阶绘图-7-网格图

    一 FacetGrid 该函数可以绘制最多三个维度 row col hue 行 列和颜色 使用数据集构造网格的变量初始化对象 可以通过调用map函数或map dataframe函数将一个或多个绘图函数应用于每个子集 或包含在relplot
  • tcl系列之列表操作

    目录 1 列表定义 2 列表操作命令 2 1 concat 2 2 lrepeat 2 3 llength 2 4 lindex 2 5 lrange 2 6 linsert 2 7 lreplace 2 8 lset 2 9 lappen
  • linux 升级内核 需要重启吗,如何在不重新启动的情况下升级服务器内核?

    问题描述 这是一个加载的问题 因为我已经知道 并且对ksplice非常感兴趣 问题在于 由于他们被Oracle收购 他们被迫从产品中提取大量服务器 答案并不像以前那么简单 You can build your own ksplice pat
  • 解决Adobe Acobat设置了背景色,显示出现白条的问题!

    目录 问题描述 解决办法 问题描述 改变了Adobe Acobat原本的白色背景 如设置了护眼色 PDF文档打开出现很多白色横条 如下图所示 解决办法 取消2D图形加速即可 步骤如下 进入 编辑 首选项 种类 页面显示 渲染 取消勾选使用
  • wc命令

    Linux wc命令用于计算字数 利用wc指令我们可以计算文件的Byte数 字数 或是列数 若不指定文件名称 或是所给予的文件名为 则wc指令会从标准输入设备读取数据 语法 wc clw help version 文件 参数 c或 byte
  • 配置方法数超过 64K 的应用

    https developer android com studio build multidex html 配置方法数超过 64K 的应用 本文内容 关于 64K 引用限制 Android 5 0 之前版本的 Dalvik 可执行文件分包
  • 《区块链基础知识25讲》-第十四讲-存储交易数据

    目标 是利用区块链技术 以有序的方式维护交易数据的整个历史记录 挑战 是如何按交易顺序存储发生的交易数据 并且找到一种能够快速检测到交易数据发生变化的方法 通过创建一个交易数据库 并维护一个保留了将交易添加到交易数据库中顺序的目录来实现对历
  • 深入理解Java IO流:高效数据输入输出的利器

    文章目录 简介 基本概念 字节流 字节输出流 OutputStream 抽象类 字节输出流的子类 FileOutputStream 字节输入流 InputStream 抽象类 字节输入流的子类 FileInputStream 字符流 字符输
  • css开启第一张简单式网页图

    参考链接 https www runoob com try try cdnjs php filename trycss website layout blog 我是参考上述链接 稍微做些修改 然后如下
  • poi 顺序解析word_POI解析word文档,支持DOC和DOCX版本

    一 简介 Apache POI是一个开源的利用Java读写Excel WORD等微软OLE2组件文档的项目 最新的3 5版本有很多改进 加入了对采用OOXML格式的Office 2007支持 如xlsx docx pptx文档 二 POI组