使用java搜索文本并获取pdf中的位置

2023-12-24

如何使用 java 搜索文本并获取 pdf 中的位置？我尝试使用 apache pdfbox 和 pdfclown 但每当文本下降或开始新段落时，它都不起作用。我想得到与下图相同的结果。

谢谢。

期望的结果 https://i.stack.imgur.com/KbXir.png

你提到我之前的回答之一 https://stackoverflow.com/a/35987635/1729265作为 PDFBox 的示例，它不适合您。事实上，正如该答案中已经解释的那样，令人惊讶的是看到代码与单个单词之外的任何内容匹配，因为那里覆盖的例程的调用者给人一种逐字调用它的印象。因此，确实很难找到任何跨越一行的东西。

但是我们可以以一种非常自然的方式改进该示例，以允许跨行边界搜索，假设行在空格处分开。替换方法findSubwords通过这个改进版本：

List<TextPositionSequence> findSubwordsImproved(PDDocument document, int page, String searchTerm) throws IOException
{
    final List<TextPosition> allTextPositions = new ArrayList<>();
    PDFTextStripper stripper = new PDFTextStripper()
    {
        @Override
        protected void writeString(String text, List<TextPosition> textPositions) throws IOException
        {
            allTextPositions.addAll(textPositions);
            super.writeString(text, textPositions);
        }

        @Override
        protected void writeLineSeparator() throws IOException {
            if (!allTextPositions.isEmpty()) {
                TextPosition last = allTextPositions.get(allTextPositions.size() - 1);
                if (!" ".equals(last.getUnicode())) {
                    Matrix textMatrix = last.getTextMatrix().clone();
                    textMatrix.setValue(2, 0, last.getEndX());
                    textMatrix.setValue(2, 1, last.getEndY());
                    TextPosition separatorSpace = new TextPosition(last.getRotation(), last.getPageWidth(), last.getPageHeight(),
                            textMatrix, last.getEndX(), last.getEndY(), last.getHeight(), 0, last.getWidthOfSpace(), " ",
                            new int[] {' '}, last.getFont(), last.getFontSize(), (int) last.getFontSizeInPt());
                    allTextPositions.add(separatorSpace);
                }
            }
            super.writeLineSeparator();
        }
    };
    
    stripper.setSortByPosition(true);
    stripper.setStartPage(page);
    stripper.setEndPage(page);
    stripper.getText(document);

    final List<TextPositionSequence> hits = new ArrayList<TextPositionSequence>();
    TextPositionSequence word = new TextPositionSequence(allTextPositions);
    String string = word.toString();

    int fromIndex = 0;
    int index;
    while ((index = string.indexOf(searchTerm, fromIndex)) > -1)
    {
        hits.add(word.subSequence(index, index + searchTerm.length()));
        fromIndex = index + 1;
    }

    return hits;
}

(搜索子词 https://github.com/mkl-public/testarea-pdfbox2/blob/master/src/test/java/mkl/testarea/pdfbox2/extract/SearchSubword.java#L129 method)

我们在这里收集所有TextPosition条目，实际上，每当 PDFBox 添加换行符时，我们甚至会添加代表空格的虚拟条目。一旦整个页面呈现出来，我们就搜索所有这些文本位置的集合。

应用于示例文档 https://github.com/mkl-public/testarea-pdfbox2/blob/master/src/test/resources/mkl/testarea/pdfbox2/extract/Variables.pdf在原来的问题中，

寻找"${var 2}"现在返回所有 8 次出现，以及那些跨行分割的：

* Looking for '${var 2}' (improved)
  Page 1 at 164.39648, 257.65997 with width 37.078552 and last letter '}' at 195.62, 257.65997
  Page 1 at 188.75699, 273.74 with width 37.108047 and last letter '}' at 220.01, 273.74
  Page 1 at 167.49583, 289.72998 with width 40.55017 and last letter '}' at 198.74, 289.72998
  Page 1 at 176.67778, 305.81 with width 38.059418 and last letter '}' at 207.89, 305.81
  Page 1 at 164.39648, 357.28998 with width -46.081444 and last letter '}' at 112.46, 372.65
  Page 1 at 174.97762, 388.72998 with width -56.662575 and last letter '}' at 112.46, 404.09
  Page 1 at 153.74, 420.16998 with width -32.004005 and last letter '}' at 112.46, 435.65
  Page 1 at 162.99922, 451.61 with width -43.692017 and last letter '}' at 112.46, 467.21

出现负宽度是因为匹配结束的 x 坐标小于开始的 x 坐标。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用java搜索文本并获取pdf中的位置的相关文章

Spring Batch 多线程 - 如何使每个线程读取唯一的记录？

这个问题在很多论坛上都被问过很多次了但我没有看到适合我的答案我正在尝试在我的 Spring Batch 实现中实现多线程步骤有一个包含 100k 条记录的临时表想要在 10 个线程中处理它每个线程的提交间隔为 300 因此在任何时
如何默认将 Maven 插件附加到阶段？

我有一个 Maven 插件应该在编译阶段运行所以在项目中consumes我的插件我必须做这样的事情
Play框架运行应用程序问题

每当我尝试运行使用以下命令创建的新 Web 应用程序时我都会收到以下错误Play http www playframework org Error occurred during initialization of VM Could no
JAXb、Hibernate 和 beans

目前我正在开发一个使用 Spring Web 服务 hibernate 和 JAXb 的项目 1 我已经使用IDE hibernate代码生成生成了hibernate bean 2 另外我已经使用maven编译器生成了jaxb bean
Liferay ClassNotFoundException：DLFileEntryImpl

在我的 6 1 0 Portal 实例上带有使用 ServiceBuilder 和 DL Api 的 6 1 0 SDK Portlet 这一行 DynamicQuery query DynamicQueryFactoryUtil for
磁模拟

假设我在 n m 像素的 2D 表面上有 p 个节点我希望这些节点相互吸引使得它们相距越远吸引力就越强但是如果两个节点之间的距离比如 d A B 小于某个阈值比如 k 那么它们就会开始排斥谁能让我开始编写一些关于如何随时间更新
我可以使用 HSQLDB 进行 junit 测试克隆 mySQL 数据库吗

我正在开发一个 spring webflow 项目我想我可以使用 HSQLDB 而不是 mysql 进行 junit 测试吗如何将我的 mysql 数据库克隆到 HSQLDB 如果您使用 spring 3 1 或更高版本您可以使用 s
为什么HashMap不能保证map的顺序随着时间的推移保持不变

我在这里阅读有关 Hashmap 和 Hashtable 之间的区别 http javarevisited blogspot sg 2010 10 difference Between hashmap and html http javar
加密 JBoss 配置中的敏感信息

JBoss 中的标准数据源配置要求数据库用户的用户名和密码位于 xxx ds xml 文件中如果我将数据源定义为 c3p0 mbean 我会遇到同样的问题是否有标准方法来加密用户和密码保存密钥的好地方是什么这当然也与 tomcat
Java Integer CompareTo() - 为什么使用比较与减法？

我发现java lang Integer实施compareTo方法如下 public int compareTo Integer anotherInteger int thisVal this value int anotherVal an
AWS 无法从 START_OBJECT 中反序列化 java.lang.String 实例

我创建了一个 Lambda 函数我想在 API 网关的帮助下通过 URL 访问它我已经把一切都设置好了我还创建了一个application jsonAPI Gateway 中的正文映射模板如下所示 input input params
Android 中麦克风的后台访问

是否可以通过 Android 手机上的后台应用程序服务持续监控麦克风我想做的一些想法不断聆听背景中的声音信号收到有趣的音频信号后执行一些网络操作如果前台应用程序需要的话后台应用程序必须能够智能地放弃对麦克风的访问除非可
如何从泛型类调用静态方法？

我有一个包含静态创建方法的类 public class TestClass public static
如何在桌面浏览器上使用 webdriver 移动网络

我正在使用 selenium webdriver 进行 AUT 被测应用程序的功能测试自动化 AUT 是响应式网络我几乎完成了桌面浏览器的不同测试用例现在相同的测试用例也适用于移动浏览器因为可以从移动浏览器访问 AUT 由于它是响
USB 上的 Autorun.inf 可以让它运行 pdf 吗？

我在网上做了一些研究我想我只是在寻找构象由于 Microsoft 如何在 Vista 及更高版本中对自动运行设置安全性从 USB 自动运行不再起作用正确的看起来它仍然会显示运行 exe 的选项但由于某些奇怪的原因我无法让它运行
声明的包“”与预期的包不匹配

我可以编译并运行我的代码但 VSCode 中始终显示错误早些时候有一个弹出窗口我不记得是什么了我点击了全局应用从那以后一直是这样 Output is there but so is the error The declared
静态变量的线程安全

class ABC implements Runnable private static int a private static int b public void run 我有一个如上所述的 Java 类我有这个类的多个线程在里面r
编译器抱怨“缺少返回语句”，即使不可能达到缺少返回语句的条件

在下面的方法中编译器抱怨缺少退货声明即使该方法只有一条路径并且它包含一个return陈述抑制错误需要另一个return陈述 public int foo if true return 5 鉴于Java编译器可以识别无限循环 https
如何实现仅当可用内存较低时才将数据交换到磁盘的写缓存

我想将应用程序生成的数据缓存在内存中但如果内存变得稀缺我想将数据交换到磁盘理想情况下我希望虚拟机通知它需要内存并将我的数据写入磁盘并以这种方式释放一些内存但我没有看到任何方法以通知我的方式将自己挂接到虚拟机中before an O
使用 xpath 和 vtd-xml 以字符串形式获取元素的子节点和文本

这是我的 XML 的一部分

随机推荐

CSS线性渐变不准确？

对于我的应用程序我希望制作一个可以提供 0 度到 360 度之间任何色调的调色板我目前正在使用此代码来制作调色板我们以色调 120 纯绿色为例 function drawPalette hue var ctx document qu
领域驱动设计和实体框架 4.1（代码优先）

我目前正在学习领域驱动设计开发方法并使用 Tim McCarthy 编写的 NET 领域驱动设计与 C 一书作为指南这本书确实很有帮助但在使用实体框架时我变得有点困惑特别是 4 1 中提供的代码优先方法根据书中的示例分层架构方法
从包含合并单元格的表格中删除范围

基本上我想要完成的是删除表中从光标在表中的位置到表末尾的所有行问题是该表包含垂直合并的单元格因此当我尝试执行以下操作时 For i Selection Tables 1 Rows Count To Selection Cells 1
如何使用 Moq 库创建 SerialPort 模拟？

我必须编写大量处理串行端口的代码通常电线的另一端会连接一个设备我通常会创建自己的模拟来模拟它们的行为我开始考虑 Moq 来帮助我进行单元测试当您只需要一个存根时使用它非常简单但我想知道是否可能如果可以如何为硬件设备创建一个
在 Mono 中保留退出代码

我有一个使用 C 编写的简单应用程序它通过命令行参数接受操作数并通过退出代码报告成功或失败当通过批处理文件在 Windows XP 上运行时 MyProg exe Snip Command line Params echo error
获取chrome的控制台日志

我想构建一个自动化测试所以我必须知道chrome控制台中出现的错误有一个选项可以获取控制台中出现的错误行吗为了查看控制台右键单击页面中的某个位置单击检查元素然后转到控制台我不懂 C 但这是完成这项工作的 Java 代码我
iTextSharp生成PDF：如何将pdf发送给客户端并添加提示？

我使用 iTextSharp 生成了一个 pdf 当它创建时它会自动保存在服务器上我的代码中提供的位置而不是客户端当然不会告诉用户任何信息我需要将其发送给客户端并且需要提示一个对话框来询问用户想要将其pdf保存在哪里请问我该怎么
我们是否应该在 JavaFX 自定义控件中使用 FXML？

似乎很想问这个问题我认为使用 FXML 来编写我们的自定义组件显然是正确的方法但从ControlsFX JFXextras甚至掌握JavaFX8控件一书中我们可以看到在自定义控件中都没有使用或提及FXML的使用尽管如此官方文档
是否可以在泛型函数中排除引用参数？

由于泛型类型参数T可以是任何类型包括引用我想知道是否可以选择退出泛型函数中的引用即能够编写如下内容 use std ops Deref fn foo
Rails ActiveRecord：没有主键的旧表显示结果为零？

我有一个 Rails 应用程序它将位于遗留数据库之上其中有一些我必须处理的丑陋的表一个是一个feature attributes相关表features 问题是这个feature attributes表没有主键我不认为这会成为问题但
Ruby Koans：这个返回值中的引号在哪里？

我正在研究以下 Ruby Koan class Dog7 attr reader name def initialize initial name name initial name end def get self self end de
在 Visual Studio Express 2013 中创建解决方案文件夹

我注意到当您在 VS 2013 Express 中打开包含解决方案文件夹的解决方案时它们会正确加载并且解决方案会正确构建与 Visual Studio 2010 的 Express 版本不同它在加载解决方案时显示错误消息 Here
具有 SelectList 设计决策的 ViewModel

我创建了一个视图模型 public VMPosition public VMPosition for model binder public VMPosition int EmployeeID PositionStatusList new
如何禁用 Cloud Firestore？

我在 Firebase 中使用实时数据库偶然点击了 Cloud Firestore 从那时起每当我想访问实时数据库时它默认为 Cloud Firestore 我必须单击并选择我正在使用的数据库非常烦人有没有办法禁用或删除它有没有
如何更改默认布局目录？

我的应用程序具有站点公共部分的所有控制器Utilisation模块并且它们都继承自Utilisation UtilisationController 我想为这些控制器设置默认布局 utilization layouts html erb 我
为什么我必须使用 UIElement.UpdateLayout？

我们有一个相当大的 WPF 业务应用程序我正在对现有的 WPF 固定页面固定文档报告进行重组这是一个有点繁忙的生态系统我们有一个内置的表单生成器您可以添加许多不同的控件就像一个迷你的内置视觉工作室一切都很好您在屏幕上填写表格
PHP字符串转多级数组

如何转换这个字符串 arrKeys lev1 lev2 lev3 val foo 进入以下数组 Array lev1 gt Array lev2 gt Array lev3 gt foo 数组键的数量可能会有所不同除最后一个之外的每个数
Achartengine 图例位置

有谁知道如何更改图例的位置我正在尝试扩展图表以利用所有空间到目前为止我已经 mRenderer setMargins new int 20 30 50 0 这会将图表扩展得更低但图例保持在同一位置因此它现在位于 x 轴上方 I tr
WinHttp：如何使用临时证书存储？

我有一个 C 应用程序它与我们的一台服务器建立 HTTPS 连接在我的理想世界中我希望发生以下情况应用程序启动应用程序使 Windows 信任服务器的根 CA 请不要使用 GUI 只需系统调用应用程序与服务器对话执行其工作等
使用java搜索文本并获取pdf中的位置

如何使用 java 搜索文本并获取 pdf 中的位置我尝试使用 apache pdfbox 和 pdfclown 但每当文本下降或开始新段落时它都不起作用我想得到与下图相同的结果谢谢期望的结果 https i stack imgu

使用java搜索文本并获取pdf中的位置

使用java搜索文本并获取pdf中的位置 的相关文章

随机推荐

热门标签

使用java搜索文本并获取pdf中的位置的相关文章