在Java中使用tabula提取PDF中的表格数据

2023-11-10

问题：如何将pdf文件中指定的表格数据提取出来？

尝试过的工具包有：pdfbox、tabula。最终选用tabula

两种工具的比较

pdfbox

其中，pdfbox能将pdf中的内容直接提取成String，代码片段：

public static void readPdf(String path) {
    try {
        PDDocument document = PDDocument.load(new File(path));
        PDFTextStripper textStripper = new PDFTextStripper();
        textStripper.setSortByPosition(true);
        String text = textStripper.getText(document);
        System.out.println(text);
        document.close();
    } catch (IOException e) {
            e.printStackTrace();
    }
}

但是如果遇到类似以下表格数据时，会有格式损失。无论中间有几个空的单元格，最终只会转为1个制表位字符（/t）。

　　　　　　　　　　　　　　　　　input1.pdf

转换为String后是这样的：

pdfbox优点：方便快捷，使用简单，maven添加依赖后，使用PDFTextStripper.getText()即可提取文本。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

json

开发工具

在Java中使用tabula提取PDF中的表格数据的相关文章

如何使用assertEquals 和 Epsilon 在 JUnit 中断言两个双精度数？

不推荐使用双打的assertEquals 我发现应该使用带有Epsilon的形式这是因为双打不可能100 严格但无论如何我需要比较两个双打预期结果和实际结果但我不知道该怎么做目前我的测试如下 Test public void te
如何在 Spring 中禁用使用 @Component 注释创建 bean？

我的项目中有一些用于重构逻辑的通用接口它看起来大约是这样的 public interface RefactorAwareEntryPoint default boolean doRefactor if EventLogService wa
如何获取之前的URL？

我需要调用我的网络应用程序的 URL 例如如果有一个从 stackoverflow com 到我的网站 foo com 的链接我需要 Web 应用程序托管 bean 中的 stackoverflow 链接感谢所有帮助谢谢并不总是
dapper 可以反序列化存储为文本的 json 吗？

public class MyType public int Id get set public int MyArray get set var sql SELECT id MyArrayAsJson as MyArray var x aw
Java 公历日历更改时区

我正在尝试设置 HOUR OF DAY 字段并更改 GregorianCalendar 日期对象的时区 GregorianCalendar date new GregorianCalendar TimeZone getTimeZone GM
java.lang.IllegalStateException：应用程序 PagerAdapter 更改了适配器的内容，而没有调用 PagerAdapter#notifyDataSetChanged android

我正在尝试使用静态类将值传递给视图而不是使用意图因为我必须传递大量数据有时我会收到此错误但无法找出主要原因是什么 Error java lang IllegalStateException The application s Pag
没有 Spring 的自定义 Prometheus 指标

我需要为 Web 应用程序提供自定义指标问题是我不能使用 Spring 但我必须使用 jax rs 端点要求非常简单想象一下您有一个包含键值对的映射其中键是指标名称值是一个简单的整数它是一个计数器代码会是这样的 public
将 MOXy 设置为 JAXB 提供程序，而在同一包中没有属性文件

我正在尝试使用 MOXy 作为我的 JAXB 提供程序以便将内容编组解组到 XML JSON 中我创建了 jaxb properties 文件内容如下 javax xml bind context factory org eclip
Java ResultSet 如何检查是否有结果

结果集 http java sun com j2se 1 4 2 docs api java sql ResultSet html没有 hasNext 方法我想检查 resultSet 是否有任何值这是正确的方法吗 if resultS
使用 AsyncTask 传递值

我一直在努力解决这个问题但我已经到了不知道该怎么办的地步我想做的是使用一个类下载文件并将其解析为字符串然后将该字符串发送到另一个类来解析 JSON 内容所有部件都可以单独工作并且我已经单独测试了所有部件我只是不知道如何将值发送到
关键字“table”附近的语法不正确，无法提取结果集

我使用 SQL Server 创建了一个项目其中包含以下文件 UserDAO java public class UserDAO private static SessionFactory sessionFactory static se
java.io.Serialized 在 C/C++ 中的等价物是什么？

C C 的等价物是什么java io Serialized https docs oracle com javase 7 docs api java io Serializable html 有对序列化库的引用用 C 序列化数据结构 ht
我如何在java中读取二进制数据文件

因此我正在为学校做一个项目我需要读取二进制数据文件并使用它来生成角色的统计数据例如力量和智慧它的设置是让前 8 位组成一个统计数据我想知道执行此操作的实际语法是什么是不是就像读文本文件一样这样 File file new Fi
找不到符号 NOTIFICATION_SERVICE？

package com test app import android app Notification import android app NotificationManager import android app PendingIn
使用反射覆盖最终静态字段是否有限制？

在我的一些单元测试中我在最终静态字段上的反射中遇到了奇怪的行为下面是说明我的问题的示例我有一个基本的 Singleton 类其中包含一个 Integer public class BasicHolder private static
在java中为组合框分配键

我想添加一个JComboBox在 Swing 中这很简单但我想为组合中的每个项目分配值我有以下代码 JComboBox jc1 new JComboBox jc1 addItem a jc1 addItem b jc1 addItem
如何将双精度/浮点四舍五入为二进制精度？

我正在编写对浮点数执行计算的代码的测试不出所料结果很少是准确的我想在计算结果和预期结果之间设置一个容差我已经证实在实践中使用双精度在对最后两位有效小数进行四舍五入后结果始终是正确的但是usually四舍五入最后一位小数后
CamcorderProfile.videoCodec 返回错误值

根据docs https developer android com reference android media CamcorderProfile html 您可以使用CamcorderProfile获取设备默认视频编解码格式然后将其
如何防止在Spring Boot单元测试中执行import.sql

我的类路径中有一个 import sql 文件其中包含一些 INSERT 语句当使用 profile devel 运行我的应用程序时它的数据被加载到 postgres 数据库中到目前为止一切正常当使用测试配置文件执行测试时 imp
Java中super关键字的范围和使用

为什么无法使用 super 关键字访问父类变量使用以下代码输出为 feline cougar c c class Feline public String type f public Feline System out print fe

随机推荐

threejs教程(一)

插件安装 npm i three 项目引入这里我随便找的VUE项目练习的 import as THREE from three 大致介绍一下threejs的逻辑一般我们用它是来搭建三维模型的搭建三维模型就需要的三个要素场景 scen
【Xilinx Vivado 时序分析/约束系列11】FPGA开发时序分析/约束-FPGA DDR-PLL接口的 input delay 约束优化方法

目录 DDR PLL 简述实际操作实际工程顶层代码 PLL配置添加时钟约束添加 input delay 约束添加 False Path Setup Time Hold Time Multicycle约束解决办法 PLL配置发
css transition 实现滑入滑出

transition是css最简单的动画通常当一个div属性变化时我们会立即看的变化从旧样式到新样式是一瞬间的嗖嗖嗖但是如果我希望是慢慢的从一种状态转变成另外一种状态怎么办 transition可以做到第一问哪些属性值变
电脑连着无线wifi（外网）和有线内网，如何实现双网访问？

做交付难免会遇到需要开发远程解决问题但是客户方是内网开发无法远程因为自己遇到很多次记性又差所以就写着给自己看看以管理员身份运行命令提示符场景描述访问地址 http 172 31 27 15 内网必须要可以访问这个地址内网
CUID卡写入错误数据被锁死——入坑NFC的一段经历

最开始想到做NFC是还在学校上自习的时候学校有种氛围很好的自习室每个位置都是一个小隔间小隔间里还有小灯和插座以及网线口但是需要插卡取电对就是用很普通的那种校园卡插进去就有电了这个校园卡是NFC卡但是学校很nt的一点是只有上一届
vue 项目中通过监听 localStorage 的变化进行父子页面传参

vue实时监听 localStorage 变化应用场景 1 页面B需要实时获取页面A数据更改 2 父子页面之间的传参代码实例 B页面实时获取A页面的数据变化在页面A 进行缓存修改or插入缓存 localStorage setItem
MySQL8.0_JDBC笔记

第一章 JDBC概述之前我们学习了JavaSE 编写了Java程序数据保存在变量数组集合等中无法持久化后来学习了IO流可以将数据写入文件但不方便管理数据以及维护数据的关系后来我们学习了数据库管理软件MySQL 可以方便的管理
Java对象的生命周期

Java对象的生命周期 Java语言除了原始数据类型外还有一种类型被称之为引用类型对象的创建一般需要使用new关键字将创建的对象存储在堆上 heap 而在线程栈中会保留一个指向堆上地址的引用下图将展示堆栈之间的具体关系栈中被分割成
[UE4] C++实现Delegate Event实例(例子、example、sample)

相关文章如何用蓝图实现Delegate Event http aigo iteye com blog 2269663 原文作者玄冬Wong 转载请注明出处 http aigo iteye com blog 2301010 虽然官方doc
数据库实验3-单表查询

2021011203 1 查询全体学生的姓名出生年份和所在系 2 查询选修了课程的学生学号 SELECT DISTINCT sno FROM scfcy WHERE cno IS NOT NULL distinct去除重复的从名为scf
Python 循环嵌套

Python 语言允许在一个循环体里面嵌入另一个循环 Python for 循环嵌套语法 for iterating var in sequence for iterating var in sequence statements s st
有什么职业入行时间短，薪资高？

有什么职业入行时间短薪资高 1 可以通过短期半年以内的学习入行 2 入职后排除运气等不可控因素能拿到 10k 以上百分之十的人能做到就算 3 工作期间晚上有极其充足的生物钟休息时间 4 能用脑子解决的事情别用体力说到入行时间短
收集金币（人人网笔试）

题目描述小M来到了一个迷宫中这个迷宫可以用一个N M的矩阵表示在这个迷宫的某些位置中存在金币一开始小M在迷宫的入口矩阵的左上角位置 1 1 处迷宫的出口位于矩阵的右下角位置 N M 处每一次小M可以选择向下或者向右走到一个
const 指针常量指针指针常量常量指针常量

常量指针指向常量的指针在指针定义语句的类型前加const 表示该指针指向一个常量 const int a 666 const int p a 常量a只能被访问而不能被改写但指向常量a的常量指针可以改写指针常量在指针定义语句的指针名
LeetCode-从尾到头打印链表

用vector的reverse函数实现翻转hh Definition for singly linked list struct ListNode int val ListNode next ListNode int x val x nex
解决Unable to find vcvarsall.bat问题

目录前言方法1 方法2 前言用Windows平台做Python开发时难免会遇到Unable to find vcvarsall bat错误我在网上疯搜了一段时间之后才找到解决办法还是两个不想装VS的朋友可以用第二个方法1
winows搭建远程仓库Github（linux通用）

winows搭建远程仓库Github linux通用文章目录 winows搭建远程仓库Github linux通用创建远程仓库配置SSH 克隆项目多人协同开发代码冲突标签分支创建远程仓库以下操作为演示在Github网站上创
dubbo解析-详解元数据中心MetadataReport

本文基于dubbo 2 7 5版本代码详解元数据中心MetadataReport 一配置二注册中心参数simplified原理三元数据中心 1 AbstractMetadataReport 1 publishAll 2 stor
计算机复习6----码分多址CDMA计算

该部分知识位于书P57 看题解法将 A B C D每个的码片与收到的码片序列逐个进行乘法例 1 将A中第一位 1与S中第一位 1 相乘得 1 2 第二位 1 1 1 以此类推 3 得 1 1 3 1 1 3 1 1 4 对所得相
在Java中使用tabula提取PDF中的表格数据

问题如何将pdf文件中指定的表格数据提取出来尝试过的工具包有 pdfbox tabula 最终选用tabula 两种工具的比较 pdfbox 其中 pdfbox能将pdf中的内容直接提取成String 代码片段 public stati

在Java中使用tabula提取PDF中的表格数据

在Java中使用tabula提取PDF中的表格数据 的相关文章

随机推荐

热门标签

在Java中使用tabula提取PDF中的表格数据的相关文章