如何在 iTextSharp 中将 PDF 转换为文本文件

2023-11-23

我必须从 PDF 文件中检索文本。但使用下面的代码我只得到空文本文件。

for (int i = 0; i < n; i++)
{
    pagenumber = i + 1;
    filename = pagenumber.ToString();
    while (filename.Length < digits) filename = "0" + filename;
    filename = "_" + filename;
    filename = splitFile + name + filename;
    // step 1: creation of a document-object
    document = new Document(reader.GetPageSizeWithRotation(pagenumber));
    // step 2: we create a writer that listens to the document
    PdfWriter writer = PdfWriter.GetInstance(document, new FileStream(filename + ".pdf", FileMode.Create));

    // step 3: we open the document
    document.Open();

    PdfContentByte cb = writer.DirectContent;
    PdfImportedPage page = writer.GetImportedPage(reader, pagenumber);
    int rotation = reader.GetPageRotation(pagenumber);
    if (rotation == 90 || rotation == 270)
    {
        cb.AddTemplate(page, 0, -1f, 1f, 0, 0, reader.GetPageSizeWithRotation(pagenumber).Height);
    }
    else
    {
        cb.AddTemplate(page, 1f, 0, 0, 1f, 0, 0);
    }
    // step 5: we close the document

    document.Close();
    PDFParser parser = new PDFParser();
    parser.ExtractText(filename + ".pdf", filename + ".txt");
}

我做错了什么以及如何从 PDF 中提取文本？

对于使用 iTextSharp 进行文本提取，请获取该库的当前版本并使用

PdfTextExtractor.GetTextFromPage(reader, pageNumber);

请注意，某些 5.3.x 版本中的文本提取代码存在错误，目前已修复。因此，请确保您使用的是最新的 5.5.x 版本。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

pdf

itext

如何在 iTextSharp 中将 PDF 转换为文本文件的相关文章

InvalidOperationException - 对象当前正在其他地方使用 - 红十字

我有一个 C 桌面应用程序其中我连续创建的一个线程从源实际上是一台数码相机获取图像并将其放在 GUI 中的面板 panel Image img 上这必须是另一个线程如它是控件的代码隐藏该应用程序可以工作但在某些机器上我会在随
注销租约抛出 InvalidOperationException

我有一个使用插件的应用程序我在另一个应用程序域中加载插件我使用 RemoteHandle 类http www pocketsilicon com post Things That Make My Life Hell Part 1 App
如何将 protobuf-net 与不可变值类型一起使用？

假设我有一个像这样的不可变值类型 Serializable DataContract public struct MyValueType ISerializable private readonly int x private readon
如何让 Swagger 插件在自托管服务堆栈中工作

我已经用 github 上提供的示例重新提出了这个问题并为任何想要自己运行代码的人提供了一个下拉框下载链接 Swagger 无法在自托管 ServiceStack 服务上工作 https stackoverflow com questio
ClickOnce 应用程序错误：部署和应用程序没有匹配的安全区域

我在 IE 中使用 FireFox 和 Chrome 的 ClickOnce 应用程序时遇到问题它工作正常异常的详细信息是 PLATFORM VERSION INFO Windows 6 1 7600 0 Win32NT Common
在 C 中匹配二进制模式

我目前正在开发一个 C 程序需要解析一些定制的数据结构幸运的是我知道它们是如何构造的但是我不确定如何在 C 中实现我的解析器每个结构的长度都是 32 位并且每个结构都可以通过其二进制签名来识别举个例子有两个我感兴趣的特定结构
使用 LINQ2SQL 在 ASP.NET MVC 中的各种模型存储库之间共享数据上下文

我的应用程序中有 2 个存储库每个存储库都有自己的数据上下文对象最终结果是我尝试将从一个存储库检索到的对象附加到从另一个存储库检索到的对象这会导致异常 Use 构造函数注入将 DataContext 注入每个存储库 public cl
在 C 中初始化变量

我知道有时如果你不初始化int 如果打印整数您将得到一个随机数但将所有内容初始化为零似乎有点愚蠢我问这个问题是因为我正在评论我的 C 项目而且我对缩进非常直接并且它可以完全编译 90 90 谢谢 Stackoverflow 但我想
在 Visual Studio 2010 中从 Fortran 调用 C++ 函数

我想从 Fortran 调用 C 函数为此我在 Visual Studio 2010 中创建了一个 FORTRAN 项目之后我将一个 Cpp 项目添加到该 FORTRAN 项目中当我要构建程序时出现以下错误 Error 1 unr
标准化 UTF-8 到底是什么？

The 重症监护室项目 http userguide icu project org transforms normalization 现在也有一个PHP库 http us php net manual en class normalize
如何在 32 位或 64 位配置中以编程方式运行任何 CPU .NET 可执行文件？

我有一个可在 32 位和 64 位处理器上运行的 C 应用程序我试图枚举给定系统上所有进程的模块当尝试从 64 位应用程序枚举 32 位进程模块时这会出现问题 Windows 或 NET 禁止它我认为如果我可以从应用程序内部重新启动
Azure 辅助角色“请求输入之一超出范围”的内部异常。

我在辅助角色中调用 CloudTableClient CreateTableIfNotExist 方法但收到一个异常其中包含请求输入之一超出范围的内部异常我做了一些研究发现这是由于将表命名为非法表名引起的但是我尝试为我的表命
外键与独立关系 - Entity Framework 5 有改进吗？

我读过了several http www ladislavmrnka com 2011 05 foreign key vs independent associations in ef 4 文章和问题 https stackoverflow
如何设置 log4net 每天将我的文件记录到不同的文件夹中？

我想将每天的所有日志保存在名为 YYYYMMdd 的文件夹中 log4net 应该根据系统日期时间处理创建新文件夹我如何设置它我想将一天中的所有日志保存到 n 个 1MB 的文件中我不想重写旧文件但想真正拥有一天中的所有日志我该如
Cmake 链接共享库：包含库中的头文件时“没有这样的文件或目录”

我正在学习使用 CMake 构建库构建库的代码结构如下 include Test hpp ITest hpp interface src Test cpp ITest cpp 在 CMakeLists txt 中我用来构建库的句子是 f
使用 C# 读取 Soap 消息
System.IO.FileNotFoundException：找不到网络路径。在 Windows 7 上使用 DirectoryEntry 对象时出现异常

我正在尝试使用 DirectoryEntry 对象连接到远程 Windows 7 计算机这是我的代码 DirectoryEntry obDirEntry new DirectoryEntry WinNT hostName hostName
Oracle Data Provider for .NET 不支持 Oracle 19.0.48.0.0

我们刚刚升级到 Oracle 19c 19 3 0 所有应用程序都停止工作并出现以下错误消息 Oracle Data Provider for NET 不支持 Oracle 19 0 48 0 0 我将 Oracle ManagedData
使用 .NET Process.Start 运行时挂起进程 - 出了什么问题？

我在 svn exe 周围编写了一个快速而肮脏的包装器来检索一些内容并对其执行某些操作但对于某些输入它偶尔会重复挂起并且无法完成例如一个调用是 svn list svn list http myserver 84 svn Docum
从列表中选择项目以求和

我有一个包含数值的项目列表我需要使用这些项目求和我需要你的帮助来构建这样的算法下面是一个用 C 编写的示例描述了我的问题 int sum 21 List

随机推荐

如果用户提交表单，则不要询问确认

我使用以下 JavaScript 代码来警告用户如果他尝试重定向到另一个页面而不提交表单 window onbeforeunload function return Are you sure that you want to leave
servicePrincipalName 应该具有什么值？

我正在尝试在我的服务上设置客户端模拟我需要为我的服务端点的 servicePrincipalName 设置一个值我正在看这个MSDN 文章但还是不太明白我的服务托管在我们称为 ServerName1 的服务器上的控制台应用程序中乌里
类型的打字稿扩展运算符[重复]

这个问题在这里已经有答案了我正在尝试定义一种类型该类型获取函数类型作为泛型参数并返回一个与输入函数类型相同的函数类型只是它最后还有一个参数 type AugmentParam
java.lang.NoClassDefFoundError：无法初始化类 sun.nio.ch.FileChannelImpl

我正在开发一个执行的应用程序Jython 2 5 3脚本来自JAVA 1 6 027 该脚本只是使用编解码器库打开一个文件如下所示 try from codecs import open as codecs open except Imp
以正确的方式避免循环依赖 - NestJS

说我有一个StudentService一种为学生增加课程的方法LessonService使用一种将学生添加到课程中的方法在我的课程和学生解决程序中我希望能够更新本课程学生关系所以在我的LessonResolver我有一些类似的事情 a
在 VS Code 控制台中调试 JavaScript

如何在 VSCode 控制台中快速测试 JavaScript 如下图所示我必须安装扩展才能执行此操作吗我在 Ubuntu 和 Windows 10 中使用 VSCode 但我没有看到Console 我所看到的只是调试控制台 Proble
这个带有可变引用参数的 JavaScript 函数是纯函数吗？

我有同样的问题this one 但是在 JavaScript 的上下文中 From 维基百科纯函数的返回值与same论据那里进一步声称纯函数不允许使用可变引用参数来改变返回值在 JavaScript 中每个普通对象都作为可
将简单套接字变成 SSL 套接字

我编写了简单的 C 程序它们使用套接字客户端和服务器 UNIX Linux 用法服务器端简单地创建一个套接字 sockfd socket AF INET SOCK STREAM 0 然后将其绑定到 sockaddr bind so
为什么 JPA 实体中的属性不允许“公共”？

The JPA 2 0规范第 22 页说类的实例变量必须是私有的受保护的或包的可见性与是否字段访问或属性访问是用过的当使用属性访问时属性访问器方法必须是公共或受保护为什么不允许公众访问对于公共字段代理将无法可靠地工作
使用自定义访问者时，如何停止使用 Boost Graph Library 进行广度优先搜索？

假设我找到了符合我的条件的节点我需要停止搜索解决方案是抛出已知类型的异常然后在调用方捕获它来自FAQ 如何提前退出 BFS 等算法创建一个在您想要中断搜索时抛出异常的访问者然后将对 breadth first search 的调
Select 和 SelectMany 之间的区别

我一直在寻找之间的区别Select and SelectMany但我一直没能找到合适的答案我需要了解使用 LINQ To SQL 时的区别但我发现的只是标准数组示例有人可以提供 LINQ To SQL 示例吗 SelectMany展平
OpenCV Android - 使用 CameraBridgeViewBase 的颜色问题

我在使用 Android 模拟器和 OpenCV 时遇到一个奇怪的问题CameraBridgeViewBase Using onCameraFrame我收到一张看起来未正确解码的图片 public Mat onCameraFrame CvC
数组的 Arrays.asList()

这个转换有什么问题吗 public int getTheNumber int factors ArrayList
Haskell 计算密集型线程会阻塞所有其他线程

我想编写一个程序其主线程分叉一个新线程进行计算并等待它完成一段时间如果子线程没有在给定时间内完成它将超时并被终止我有以下代码 import Control Concurrent fibs Int gt Int fibs 0 0 fi
恢复 Django-mailer 数据库时 MySQL 错误 1118（行大小太大）

我从 django 应用程序转储了一个正在运行的生产数据库并尝试将其迁移到我的本地开发环境生产服务器运行MySQL 5 1 本地我有5 6 当迁移 django mailer 的 messagelog 表时我遇到了可怕的错误 1118
SQL 错误：ORA-02000：创建基于标识列的表时缺少 ALWAYS 关键字

我尝试在表上创建一个自动递增列正如我在此看到的post有两种方法使用 Identity 列的第二种实现是一个更优雅的解决方案但是当我尝试实现它时出现以下错误 Error at Command Line 3 Column 31 Err
散点图中的颜色编码误差线

我正在尝试创建一个森林地块 with R plotly我想通过相应的 p 值对效应大小点及其误差线进行颜色编码以下是玩具数据 set seed 1 factors lt paste0 1 25 age effect sizes lt
为什么 Devise 将注册错误重定向到不同的页面？

我创建了新的 Rails 项目仅使用生成的主页控制器来测试它我的设计型号是User 所以注册页面是http localhost 3000 users sign up 如果我触发错误例如在未提供密码的情况下提交表单我会被重定向到ht
UIView alpha = 0 导致触摸被删除到下面的视图

因此我创建了一个玻璃窗格或自定义 UIView 来处理触摸该玻璃窗格位于其他视图例如虚拟 UIButtons 之上当我将 alpha 设置为 0 时触摸实际上会被玻璃视图下方的视图拦截这是错误的但是当我将 alpha 设置为
如何在 iTextSharp 中将 PDF 转换为文本文件

我必须从 PDF 文件中检索文本但使用下面的代码我只得到空文本文件 for int i 0 i lt n i pagenumber i 1 filename pagenumber ToString while filename Lengt

如何在 iTextSharp 中将 PDF 转换为文本文件

如何在 iTextSharp 中将 PDF 转换为文本文件 的相关文章

随机推荐

热门标签

如何在 iTextSharp 中将 PDF 转换为文本文件的相关文章