【Java基础】 使用POI解析excel时格式判定问题及解决方案

2023-11-19

 写在前面

        本文主要介绍在实际开发过程中使用POI工具类去解析Excel格式文件遇到的问题引发的思考、学习以及解决方案,仅供参考,有考虑不周的地方还请指正。

问题描述

         博主在做excel解析的时候,遇到了一个奇怪的现象——.xlsx拓展名的文件使用POI工具类的XSSFWorkbook进行程序初始化时候报格式错误,而使用HSSFWorkbook时候运行正常。

        而当博主在新建一个.xlsx格式文件并将原文件中的数据复制到新的workbook中,再去使用XSSFWorkbook解析便可以正常执行。是什么原因导致在视觉上一致的文件,在使用POI解析时候有那么大的差别呢?

思考

POI很多网上给出的使用方法中说明XSSFWorkbook与HSSFWorkbook使用差别:

XSSF用于解析Excel2007版本开始,扩展名为.xlsx的excel文件。

HSSF用于解析Excel97-2003版本,扩展名为.xls的excel文件。

思考一下,若其只是按照拓展名来判定excel文件的格式,会出现这种情况吗?

很明显并不会,情况发生了,便只有一种解释——看着是.xlsx格式的文件本质上是一个.xls格式文件。

问题找到了,就是拓展名与POI解析出来的文件格式不一致,下一步便是去了解POI如何判断Excel文件的格式。

POI对Excel文件的判定标准

博主去官网查看了XSSFWorkbook的源码,在其构造函数中可以看到调用了

  源码路径:poi/XSSFWorkbook.java at trunk · apache/poi · GitHub

 继续追溯PackageHelper的open(InputStream stream, boolean closeStream)方法

 源码路径:poi/PackageHelper.java at b52143528ac2f7eab4bd63bc64f4f957d7bb2f31 · apache/poi · GitHub

继续追溯OPCPackage的open(InputStream in)方法

 

 源码路径:poi/OPCPackage.java at b52143528ac2f7eab4bd63bc64f4f957d7bb2f31 · apache/poi · GitHub

 继续查看并找到对应的ZipPackage构造方法

 源码路径:poi/ZipPackage.java at b52143528ac2f7eab4bd63bc64f4f957d7bb2f31 · apache/poi · GitHub

 查看ZipHelper的openZipStream(InputStream stream)方法,可以看到想看的值主要跟两个哈部署有关,一个是FileMagic的prepareToCheckMagic方法,一个是本类的verifyZipHeader方法

 

 源码路径:poi/ZipHelper.java at b52143528ac2f7eab4bd63bc64f4f957d7bb2f31 · apache/poi · GitHub

我们先查看FileMagic的prepareToCheckMagic方法

 这边可以看到仅仅是一个准备的方法,并没有判断

 回到ZipHelper类,查看verifyZipHeader方法,在verifyZipHeader方法中对FileMagic.valueOf(is);的返回值进行了半段,从抛出的异常中可以看出若是OLE2便会抛出OLE2NotOfficeXmlFileException,说明格式不正确,应该使用HSSF解析,XSSF对应解析格式应该为OOXML,而且对于返回为XML则会报版本过低的异常(2003版本)。

下面便是看一下FileMagic类的valueOf方法返回值依赖于什么数据的。

 

源码路径:poi/FileMagic.java at b52143528ac2f7eab4bd63bc64f4f957d7bb2f31 · apache/poi · GitHub

 可以看到是获取字节流的第一个字节去判断,而非通过后缀名的格式取判断。

解决方案

问题找到了,如何取解决呢?博主是使用POI自带的判断字节流头部判断方法取处理,声明一个私有全局变量Type去标记当前文件的格式,以便后续的使用,后续的逻辑就很简单了,每个功能写两遍同名不同参的方法就行(XSSF与HSSF)。

public class TabsExcel {
	static final Logger logger = Logger.getLogger(TabsExcel.class);

	private Workbook workbook = null;

	private String Type = "";

	public TabsExcel() {
		InputStream inp;
		try {
			inp = new FileInputStream(
					System.getProperty("user.dir") + File.separator + "input" + File.separator + "文件名.xlsx");
			BufferedInputStream bis = new BufferedInputStream(inp);
			if (POIFSFileSystem.hasPOIFSHeader(bis)) {
				workbook = new HSSFWorkbook(bis);
				Type = "XLS";
			} else if (POIXMLDocument.hasOOXMLHeader(bis)) {
				workbook = new XSSFWorkbook(OPCPackage.open(bis));
				Type = "XLSX";
			}
		} catch (FileNotFoundException e) {
			logger.info("there something wrong,please check the log");
			logger.error("Excel not found : No Excel to be parsed was found, please check the Input folder!");
			logger.error(e.getMessage(), e);
			System.exit(0);
		} catch (IOException e) {
			logger.info("there is something wrong, please check the log");
			logger.error(e.getMessage(), e);
		} catch (InvalidFormatException e) {
			logger.info("there something wrong,please check the log");
			logger.error(e.getMessage(), e);
		}
	}
}

代码中使用了log4j作为log的输出,需要的小伙伴可以自行下载配置文件,不需要的只要将log对应的代码删除就可以。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【Java基础】 使用POI解析excel时格式判定问题及解决方案 的相关文章

  • Java 中等效的并行扩展

    我在 Net 开发中使用并行扩展有一些经验 但我正在考虑在 Java 中做一些工作 这些工作将受益于易于使用的并行库 JVM 是否提供任何与并行扩展类似的工具 您应该熟悉java util concurrent http java sun
  • java.lang.NoClassDefFoundError:org.apache.batik.dom.svg.SVGDOMImplementation

    我在链接到我的 Android LibGDX 项目的 Apache Batik 库时遇到了奇怪的问题 但让我们从头开始 在 IntelliJ Idea 中我有一个项目 其中包含三个模块 Main Android 和 Desktop 我强调的
  • Grails 3.x bootRun 失败

    我正在尝试在 grails 3 1 11 中运行一个项目 但出现错误 失败 构建失败并出现异常 什么地方出了错 任务 bootRun 执行失败 进程 命令 C Program Files Java jdk1 8 0 111 bin java
  • 如何默认将 Maven 插件附加到阶段?

    我有一个 Maven 插件应该在编译阶段运行 所以在项目中consumes我的插件 我必须做这样的事情
  • Java中反射是如何实现的?

    Java 7 语言规范很早就指出 本规范没有详细描述反射 我只是想知道 反射在Java中是如何实现的 我不是问它是如何使用的 我知道可能没有我正在寻找的具体答案 但任何信息将不胜感激 我在 Stackoverflow 上发现了这个 关于 C
  • Play框架运行应用程序问题

    每当我尝试运行使用以下命令创建的新 Web 应用程序时 我都会收到以下错误Play http www playframework org Error occurred during initialization of VM Could no
  • 在 java 类和 android 活动之间传输时音频不清晰

    我有一个android活动 它连接到一个java类并以套接字的形式向它发送数据包 该类接收声音数据包并将它们扔到 PC 扬声器 该代码运行良好 但在 PC 扬声器中播放声音时会出现持续的抖动 中断 安卓活动 public class Sen
  • 给定两个 SSH2 密钥,我如何检查它们是否属于 Java 中的同一密钥对?

    我正在尝试找到一种方法来验证两个 SSH2 密钥 一个私有密钥和一个公共密钥 是否属于同一密钥对 我用过JSch http www jcraft com jsch 用于加载和解析私钥 更新 可以显示如何从私钥 SSH2 RSA 重新生成公钥
  • Final字段的线程安全

    假设我有一个 JavaBeanUser这是从另一个线程更新的 如下所示 public class A private final User user public A User user this user user public void
  • 反射找不到对象子类型

    我试图通过使用反射来获取包中的所有类 当我使用具体类的代码 本例中为 A 时 它可以工作并打印子类信息 B 扩展 A 因此它打印 B 信息 但是当我将它与对象类一起使用时 它不起作用 我该如何修复它 这段代码的工作原理 Reflection
  • Spring @RequestMapping 带有可选参数

    我的控制器在请求映射中存在可选参数的问题 请查看下面的控制器 GetMapping produces MediaType APPLICATION JSON VALUE public ResponseEntity
  • 无法解析插件 Java Spring

    我正在使用 IntelliJ IDEA 并且我尝试通过 maven 安装依赖项 但它给了我这些错误 Cannot resolve plugin org apache maven plugins maven clean plugin 3 0
  • 斯坦福 NLP - 处理文件列表时 OpenIE 内存不足

    我正在尝试使用斯坦福 CoreNLP 中的 OpenIE 工具从多个文件中提取信息 当多个文件 而不是一个 传递到输入时 它会给出内存不足错误 All files have been queued awaiting termination
  • Java按日期升序对列表对象进行排序[重复]

    这个问题在这里已经有答案了 我想按一个参数对对象列表进行排序 其日期格式为 YYYY MM DD HH mm 按升序排列 我找不到正确的解决方案 在 python 中使用 lambda 很容易对其进行排序 但在 Java 中我遇到了问题 f
  • getResourceAsStream() 可以找到 jar 文件之外的文件吗?

    我正在开发一个应用程序 该应用程序使用一个加载配置文件的库 InputStream in getClass getResourceAsStream resource 然后我的应用程序打包在一个 jar文件 如果resource是在里面 ja
  • 总是使用 Final?

    我读过 将某些东西做成最终的 然后在循环中使用它会带来更好的性能 但这对一切都有好处吗 我有很多地方没有循环 但我将 Final 添加到局部变量中 它会使速度变慢还是仍然很好 还有一些地方我有一个全局变量final 例如android Pa
  • 无法捆绑适用于 Mac 的 Java 应用程序 1.8

    我正在尝试将我的 Java 应用程序导出到 Mac 该应用程序基于编译器合规级别 1 7 我尝试了不同的方法来捆绑应用程序 1 日食 我可以用来在 Eclipse 上导出的最新 JVM 版本是 1 6 2 马文 看来Maven上也存在同样的
  • 获取 JVM 上所有引导类的列表?

    有一种方法叫做findBootstrapClass对于一个类加载器 如果它是引导的 则返回一个类 有没有办法找到类已经加载了 您可以尝试首先通过例如获取引导类加载器呼叫 ClassLoader bootstrapLoader ClassLo
  • 在 Maven 依赖项中指定 jar 和 test-jar 类型

    我有一个名为 commons 的项目 其中包含运行时和测试的常见内容 在主项目中 我添加了公共资源的依赖项
  • 捕获的图像分辨率太大

    我在做什么 我允许用户捕获图像 将其存储到 SD 卡中并上传到服务器 但捕获图像的分辨率为宽度 4608 像素和高度 2592 像素 现在我想要什么 如何在不影响质量的情况下获得小分辨率图像 例如我可以获取或设置捕获的图像分辨率为原始图像分

随机推荐

  • selenium元素定位方法 id,name,class

    1 导入selenium from selenium import webdriver from time import sleep 2 打开浏览器 最大化 driver webdriver Chrome driver maximize w
  • Java 学习路线大全,再也不用迷路啦(持续更新)

    路线特点 最新 完整一条龙 从入门到入土 表示推荐学习 给出目标 学习建议 关键知识点 最优资源以及各类资源推荐 视频 书籍 文档 项目 工具等 划分阶段 更有计划 且在最后给出持续学习的方向 探索 Java 程序员发展的无限可能 前言 首
  • SQLSERVER排查CPU占用高的情况

    一般排查都是用下面的脚本 一般会用到三个视图 sys sysprocesses dm exec sessions dm exec requests sys sysprocesses 系统表是一个很重要的系统视图 主要用来定位与解决Sql S
  • 存储类型auto,static,extern,register的区别 <转>

    变量和函数的属性包括数据类型和数据的存储类别 存储类别指数据在内存中存储方式 静态和动态 包含auto static register extern四种 内存中 具体点来说内存分为三块 静态区 堆区 栈区 外部变量和全局变量存放在静态区 局
  • 半监督学习——数据精馏(论文阅读)

    论文地址 https arxiv org pdf 1712 04440 pdf 1 论文与摘要 Data Distillation Towards Omni Supervised Learning 摘要 作者提出一种特殊的半监督学习方法 取
  • android 最新动态,浅谈Android动态页面(一)

    这是一个很微妙的东西 可能平时经常用到 但是没注意 我想对这个内容进行一个总结并提出一些看法 谈的是动态页面 不是动态布局 一 什么是动态页面 什么是动态页面 我认为是一种在开发时的设计思想 最终展示的页面会随着数据的改变而改变 或者说会根
  • OpenCV中如何读取URL图像文件

    点击上方 小白学视觉 选择加 星标 或 置顶 重磅干货 第一时间送达 由来 最近知识星球收到的提问 觉得是一个很有趣的问题 就通过搜集整理归纳了一番 主要思想是通过URL解析来生成数据 转为图像 Mat对象 但是在Python语言与C 语言
  • Java基础学习总结(1)——equals方法

    2019独角兽企业重金招聘Python工程师标准 gt gt gt 一 equals方法介绍 1 1 通过下面的例子掌握equals的用法 1 package cn galc test 2 3 public class TestEquals
  • 简单spring cloud服务升级实现

    1 升级原则 隔离性 v1升级到v2时 相互独立 互不不干扰 稳定性 服务不停止 完成升级 接口保持畅通 2 具体实现 2 1 eureka项目 搭建eureka 网上很多 就省略了 2 2 feign接口项目 2 2 1 依赖
  • React Hooks

    React Hooks 为什么使用 React Hook useState hook useReducer hook useEffect hook useRef hook useLayoutEffect hook useImperative
  • GPIO口的八种工作状态

    一直对GPIO的工作状态不是很熟悉 导致在设置IO状态时 经常会设置成推挽上拉 或者推挽下拉 开漏上拉等问题 虽然看起来没有影响MCU工作 但感觉这是一种无知的表现 现在总结下GPIO口的八种工作状态 其中四种输入状态 四种输出状态 一 输
  • (STM32笔记2)基于hc05的蓝牙实验

    实验任务 开机检测 HC05 蓝牙模块是否存在 如果检测不成功 则报错 检测成功之后 显示模块的主从状态 并显示模块是否处于连接状态 DS0 闪烁 提示程序运行正常 按 KEY0 按键 可以开启 关闭自动发送数据 通过蓝牙模块发送 按 KE
  • 简单工厂模式

    简单工厂模式 一 概念 从设计模式的类型上来说 简单工厂模式是属于创建型模式 又叫做静态工厂方法 StaticFactory Method 模式 但不属于23种GOF设计模式之一 简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例 简
  • ASIC中带有MUX的时钟路径时序约束

    链接 https pan baidu com s 1BrAsabLYLGbvdXJB2LQwiA 提取码 mgrn
  • 回溯法详解

    一 回溯法 深度优先搜素 1 简单概述 回溯法思路的简单描述是 把问题的解空间转化成了图或者树的结构表示 然后使用深度优先搜索策略进行遍历 遍历的过程中记录和寻找所有可行解或者最优解 基本思想类同于 图的深度优先搜索 二叉树的后序遍历 分支
  • 旋转变换(一)旋转矩阵

    转自 https blog csdn net csxiaoshui article details 65446125 1 简介 计算机图形学中的应用非常广泛的变换是一种称为仿射变换的特殊变换 在仿射变换中的基本变换包括平移 旋转 缩放 剪切
  • Kotlin核心编程(七)

    Kotlin核心编程 七 文章目录 Kotlin核心编程 七 多继承问题 接口实现多继承问题 getter和setter 内部类解决多继承问题 内部类和嵌套类 使 委托代替多继承 数据类 Pair和Triple 数据类的约定与使 多继承问题
  • Java设计模式-装饰者模式Decorator

    介绍 装饰者模式的核心思想是通过创建一个装饰对象 即装饰者 动态扩展目标对象的功能 并且不会改变目标对象的结构 提供了一种比继承更灵活的替代方案 需要注意的是 装饰对象要与目标对象实现相同的接口 或继承相同的抽象类 另外装饰对象需要持有目标
  • mobaxterm无法连接vmware虚拟机服务器,network error:connection refused

    场景描述 电脑硬盘换了 重新安装vmware ubuntu mobaxterm 安装完ubuntu后 因为习惯了无UI的界面 所以关闭了ubuntu的桌面服务 有需要的同学可以通过sudo systemctl set default mul
  • 【Java基础】 使用POI解析excel时格式判定问题及解决方案

    写在前面 本文主要介绍在实际开发过程中使用POI工具类去解析Excel格式文件遇到的问题引发的思考 学习以及解决方案 仅供参考 有考虑不周的地方还请指正 问题描述 博主在做excel解析的时候 遇到了一个奇怪的现象 xlsx拓展名的文件使用