使用 iText7 从 PDF 中提取文本。如何提高其性能？

2023-12-10

目前，我使用此代码从矩形（区域）中提取文本。

public static class ReaderExtensions
{
    public static string ExtractText(this PdfPage page, Rectangle rect)
    {
        var filter = new IEventFilter[1];
        filter[0] = new TextRegionEventFilter(rect);
        var filteredTextEventListener = new FilteredTextEventListener(new LocationTextExtractionStrategy(), filter);
        var str = PdfTextExtractor.GetTextFromPage(page, filteredTextEventListener);
        return str;
    }
}

它有效，但我不知道这是否是最好的方法。

另外，我想知道 iText 团队是否可以改进 GetTextFromPage 以提高其性能，因为我正在处理大型 PDF 中的数百个页面，并且使用我当前的配置通常需要 10 多分钟才能完成。

EDIT:

从评论来看：看起来iText可以一次提取同一页面上多个矩形的文本，这可以提高性能（批量操作往往更高效），但是如何呢？

更多细节！

我的目标是从多页 PDF 中提取数据。每个页面都有相同的布局：包含行和列的表格。

目前，我正在使用上面的方法来提取每个矩形的文本。但是，如您所见，提取不是批量的。一次只是一个矩形。如何一次性提取页面的所有矩形？

正如评论中已经提到的，我很惊讶地发现 iText 7LocationTextExtractionStrategy不再包含类似于 iText 5 的内容LocationTextExtractionStrategy method GetResultantText(TextChunkFilter)。这将允许您解析一次页面并从任意页面区域中的文本片段中提取文本。

但有可能恢复该功能。一种选择是将其添加到LocationTextExtractionStrategy。不过，这将是一个很长的答案。所以我使用了另一个选择：我使用现有的LocationTextExtractionStrategy，并且仅仅为了GetResultantText调用我操纵策略的文本块的底层列表。而不是通用的TextChunkFilter界面我将过滤限制为手头的标准，即按矩形区域进行过滤。

public static class ReaderExtensions
{
    public static string[] ExtractText(this PdfPage page, params Rectangle[] rects)
    {
        var textEventListener = new LocationTextExtractionStrategy();
        PdfTextExtractor.GetTextFromPage(page, textEventListener);
        string[] result = new string[rects.Length];
        for (int i = 0; i < result.Length; i++)
        {
            result[i] = textEventListener.GetResultantText(rects[i]);
        }
        return result;
    }

    public static String GetResultantText(this LocationTextExtractionStrategy strategy, Rectangle rect)
    {
        IList<TextChunk> locationalResult = (IList<TextChunk>)locationalResultField.GetValue(strategy);
        List<TextChunk> nonMatching = new List<TextChunk>();
        foreach (TextChunk chunk in locationalResult)
        {
            ITextChunkLocation location = chunk.GetLocation();
            Vector start = location.GetStartLocation();
            Vector end = location.GetEndLocation();
            if (!rect.IntersectsLine(start.Get(Vector.I1), start.Get(Vector.I2), end.Get(Vector.I1), end.Get(Vector.I2)))
            {
                nonMatching.Add(chunk);
            }
        }
        nonMatching.ForEach(c => locationalResult.Remove(c));
        try
        {
            return strategy.GetResultantText();
        }
        finally
        {
            nonMatching.ForEach(c => locationalResult.Add(c));
        }
    }

    static FieldInfo locationalResultField = typeof(LocationTextExtractionStrategy).GetField("locationalResult", BindingFlags.NonPublic | BindingFlags.Instance);
}

中央扩展是LocationTextExtractionStrategy扩展需要一个LocationTextExtractionStrategy它已经包含页面中的信息，将这些信息限制为给定矩形中的信息，提取文本，并将信息返回到先前的状态。这需要一些反思；我希望这对你来说没问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 iText7 从 PDF 中提取文本。如何提高其性能？的相关文章

为什么两个不同的 Base64 字符串的转换会返回相等的字节数组？

我想知道为什么从 base64 字符串转换会为不同的字符串返回相同的字节数组 const string s1 dg const string s2 dq byte a1 Convert FromBase64String s1 byte a2
秒表有最长运行时间吗？

多久可以Stopwatch在 NET 中运行如果达到该限制它会回绕到负数还是从 0 重新开始 Stopwatch Elapsed返回一个TimeSpan From MSDN https learn microsoft com en us
ASP.NET MVC：这个业务逻辑应该放在哪里？

我正在开发我的第一个真正的 MVC 应用程序并尝试遵循一般的 OOP 最佳实践我正在将控制器中的一些简单业务逻辑重构到我的域模型中我最近一直在阅读一些内容很明显我应该将逻辑放在域模型实体类中的某个位置以避免出现贫血域模型反模式
Asp.NET WebApi 中类似文件名称的路由

是否可以在 ASP NET Web API 路由配置中添加一条路由以允许处理看起来有点像文件名的 URL 我尝试添加以下条目WebApiConfig Register 但这不起作用使用 URIapi foo 0de7ebfa 3a55
Clang 3.1 + libc++ 编译错误

我已经构建并安装了在前缀下 alt LLVM Clang trunk 2012 年 4 月 23 日在 Ubuntu 12 04 上成功使用 GCC 4 6 然后使用此 Clang 构建的 libc 当我想使用它时我必须同时提供 lc
使用 WebClient 时出现 System.Net.WebException：无法创建 SSL/TLS 安全通道

当我执行以下代码时 System Net ServicePointManager ServerCertificateValidationCallback sender certificate chain errors gt return t
C++ OpenSSL 导出私钥

到目前为止我成功地使用了 SSL 但遇到了令人困惑的障碍我生成了 RSA 密钥对之前使用 PEM write bio RSAPrivateKey 来导出它们然而手册页声称该格式已经过时实际上它看起来与通常的 PEM 格式不同相
带动态元素的 WPF 启动屏幕。如何？

我是 WPF 新手我需要一些帮助我有一个加载缓慢的 WPF 应用程序因此我显示启动屏幕作为权宜之计但是我希望能够在每次运行时更改屏幕并在文本区域中显示不同的引言这是一个生产力应用程序所以我将使用非愚蠢但激励性的引言当然如
创建链表而不将节点声明为指针

我已经在谷歌和一些教科书上搜索了很长一段时间我似乎无法理解为什么在构建链表时节点需要是指针例如如果我有一个节点定义为 typedef struct Node int value struct Node next Node 为什么为了
转发声明和包含

在使用库时无论是我自己的还是外部的都有很多带有前向声明的类根据情况相同的类也包含在内当我使用某个类时我需要知道该类使用的某些对象是前向声明的还是 include d 原因是我想知道是否应该包含两个标题还是只包含一个标题现在我知
如何在 C 中调用采用匿名结构的函数？

如何在 C 中调用采用匿名结构的函数比如这个函数 void func struct int x p printf i n p x 当提供原型的函数声明在范围内时调用该函数的参数必须具有与原型中声明的类型兼容的类型其中兼容具有标准定
使用 x509 证书签署 json 文档或字符串

如何使用 x509 证书签署 json 文档或字符串 public static void fund string filePath C Users VIKAS Desktop Data xml Read the file XmlDocum
覆盖子类中的字段或属性

我有一个抽象基类我想声明一个字段或属性该字段或属性在从该父类继承的每个类中具有不同的值我想在基类中定义它以便我可以在基类方法中引用它例如覆盖 ToString 来表示此对象的类型为 property field 我有三种方法可以
对现有视频添加水印

我正在寻找一种用 C 在视频上加水印的方法就像在上面写文字一样图片或文字标签我该怎么做谢谢您可以使用 Nreco 视频转换器代码看起来像 NReco VideoConverter FFMpegConverter wrap new
USB 上的 Autorun.inf 可以让它运行 pdf 吗？

我在网上做了一些研究我想我只是在寻找构象由于 Microsoft 如何在 Vista 及更高版本中对自动运行设置安全性从 USB 自动运行不再起作用正确的看起来它仍然会显示运行 exe 的选项但由于某些奇怪的原因我无法让它运行
WPF/C# 将自定义对象列表数据绑定到列表框？

我在将自定义对象列表的数据绑定到ListBox in WPF 这是自定义对象 public class FileItem public string Name get set public string Path get set 这是列表
基于 OpenCV 边缘的物体检测 C++

我有一个应用程序我必须检测场景中某些项目的存在这些项目可以旋转并稍微缩放更大或更小我尝试过使用关键点检测器但它们不够快且不够准确因此我决定首先使用 Canny 或更快的边缘检测算法检测模板和搜索区域中的边缘然后匹配边缘以查
IEnumreable 动态和 lambda

我想在 a 上使用 lambda 表达式IEnumerable
C++ 中类级 new 删除运算符的线程安全

我在我的一门课程中重新实现了新删除运算符现在我正在使我的代码成为多线程并想了解这些运算符是否也需要线程安全我在某处读到 Visual Studio 中默认的 new delete 运算符是线程安全的但这对于我的类的自定义 new
使用.NET技术录制屏幕视频[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有没有一种方法可以使用 NET 技术来录制屏幕无论是桌面还是窗口我的目标是免费的我喜欢小型低

随机推荐

重新创建一个组件？

有没有办法在 Svelte 中重新创建组件上下文是我有一个已经创建的组件一旦它完成它的过程我希望它被销毁然后再次创建这会将其属性恢复到默认状态并确保对其嵌套组件执行相同的操作我想这在技术上可以通过现有的组件方法实现但我想知道是
不同类型List的通用unapply方法

有没有办法用泛型来概括这段代码 object ListInt def unapply o Any Option List Int o match case lst List if lst forall isInstanceOf Int gt
可以在 Typescript 中扩展类型吗？

假设我有以下类型 type Event name string dateCreated string type string 我现在想扩展这种类型即 type UserEvent extends Event UserId string 这
OPTIONS http 方法在 Heroku 上给出空响应

当我在本地执行操作时我的 CORS 调用工作正常 curl i X OPTIONS http localhost 3000 api v1 login HTTP 1 1 200 OK X Powered By Express Access
Android 地图片段

我正在尝试创建一个具有一个活动和多个片段的 Android 应用程序每个片段在视图中时都会占据整个屏幕并且通过替换事务它应该切换到另一个片段
用于禁用警告的 SunStudio C++ 编译器编译指示？

与 Sun Studio11 捆绑在一起的 STLport 会生成大量警告我相信大多数编译器都有办法禁用某些源文件的警告如下所示 Sun C pragma error messages off include
属性不会序列化到 .designer.cs 文件中

在 VS2010 中尽管使用 ShouldSerializeFoo 方法但使用 DesignerSerializationVisibility Visible Content 也不会序列化控件属性这是代码 class Class1 U
使用或不使用正则表达式提取 YouTube ID

请告诉我如何在不使用正则表达式的情况下获取youtube ID 使用上述方法以下 URL 没用 http www youtube com e dQw4w9WgXcQ public static String extractYTId Stri
读取 JSF 应用程序内的资源文件

我需要在 JSF 应用程序中获取资源文件 InputStream input new FileInputStream filename xml 然而系统并没有发现filename xml文件该文件与以下文件位于同一文件夹中sample x
在 PowerShell 中终止指定用户运行的进程

如何杀死指定用户运行的所有同名进程例如我可以有多个程序 exe由不同的用户运行我可以使用 get process program exe kill 杀死他们所有人但我只想杀死指定用户运行的那些实例有没有方便的方法来做到这一点 V5
如何使用 Node JS (Express) 在 s3 存储桶中一次上传多个图像

require dotenv config const AWS require aws sdk const multer require multer const multerS3 require multer s3 const uuid
WooCommerce 购物车总表时间顺序更改

How do i add Delivery Fee after Sales Tex 在 Woocommerce 购物车页面中您需要覆盖模板cart cart totals php 通过主题所以你必须移动费用块 tr class fee
“ret”指令访问冲突

我有这个函数它主要由内联汇编组成 long toarrayl int members asm push esp mov eax members imul eax 4 push eax call malloc mov edx eax mov
* 和 deref 方法有什么区别？ [复制]

这个问题在这里已经有答案了例如我有一个实现了 Deref 的结构 use std ops Deref DerefMut IndexMut derive Debug struct Selector
在嵌套的 Fragment 之间传递数据

我正在开发一个项目我必须在片段之间传递数据所有数据均由我提供DatabaseHandler class SQLiteOpenHelper 我正在手写这篇文章因此请忽略语法错误如果有这是我的Activity看起来像包含 Selec
将 C++ 函数对象作为线程例程传递给 pthread_create 函数

我知道传递给 pthread create API 的线程例程具有以下原型 void threadproc void 我只是想知道是否可以使用 C 函数对象作为线程例程这是我的代码执行运行方法需要一个time t变量和一个functo
VBA 在特定时间段内从用户创建的文件夹中删除 Outlook 邮件

我正在寻找一个 VBA 代码片段来删除六 6 个月或更早且位于用户创建的文件夹中的 Outlook 邮件该代码是什么样的这是一个示例脚本 Sub DeleteOlderThan6months Dim oFolder As Folder
通过反射传递引用嵌套结构

type Client struct Id int Age int PrimaryContact Contact Name string type Contact struct Id int ClientId int IsPrimary b
在 Razor 中生成动态 XML

我在 ASP NET 之外使用 Razor 从模板生成 XML 文档我有以下代码
使用 iText7 从 PDF 中提取文本。如何提高其性能？

目前我使用此代码从矩形区域中提取文本 public static class ReaderExtensions public static string ExtractText this PdfPage page Rectangle

使用 iText7 从 PDF 中提取文本。如何提高其性能？

使用 iText7 从 PDF 中提取文本。如何提高其性能？ 的相关文章

随机推荐

热门标签

使用 iText7 从 PDF 中提取文本。如何提高其性能？的相关文章