C# 提取 PDF 文档中的文本

2023-11-06

安装 IText7

首先在 Nuget 包管理器中,安装 itext7 和 itext7.font-asian。

如果不安装 itext7.font-asian PDF 文件中有非Unicode编码的字符，将会抛出运行时异常:

iText.IO.Exceptions.IOException：找不到 CMap iText.IO.Font.Cmap.UniGB-UTF16-H

安装好了这两个组件之后，使用以下代码，从PDF文件中提取出所有的文本。

示例代码

功能封装：

public class IText7Helper
{
	public static string ExtractText(string pdfFilePath)
	{
		//创建一个PdfReader对象，用来读取pdf文件
		PdfReader pdfReader = new PdfReader(pdfFilePath);
		//创建一个PdfDocument对象，用于操作pdf文档
		PdfDocument pdfDocument = new PdfDocument(pdfReader);
		//创建一个StringBuilder对象，来存储提取的文本
		StringBuilder textBuilder = new StringBuilder();
		//获取pdf文档的总页数
		int pageCount = pdfDocument.GetNumberOfPages();
		//遍历每一页
		for (int i = 1; i <= pageCount; i++)
		{
			//获取当前页的PdfPage对象
			PdfPage pdfPage = pdfDocument.GetPage(i);
			//创建一个ITextExtractionStrategy对象，用于指定提取文本的策略
			ITextExtractionStrategy strategy = new LocationTextExtractionStrategy();
			//使用PdfTextExtractor类的GetTextFromPage方法，根据指定的策略提取当前页的文本
			string pageText = PdfTextExtractor.GetTextFromPage(pdfPage, strategy);
			//将提取的文本追加到StringBuilder对象中
			textBuilder.Append(pageText);
		}
		//关闭PdfDocument对象
		pdfDocument.Close();
		//返回StringBuilder对象中的字符串
		return textBuilder.ToString();
	}
}

调用方法：

string text = IText7Helper.ExtractText("test.pdf");

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

pdf

C# 提取 PDF 文档中的文本的相关文章

使用 std::packaged_task/std::exception_ptr 时，线程清理程序报告数据争用

我遇到了线程清理程序 TSan 的一些问题抱怨某些生产代码中的数据争用其中 std packaged task 通过将它们包装在 std function 中而移交给调度程序线程对于这个问题我简化了它在生产中的作用同时触发 TSa
如何在c++中读取pcap文件来获取数据包信息？

我想用 C 编写一个程序来读取 pcap 文件并获取数据包的信息例如 len sourc ip flags 等现在我找到了如下代码我认为它会帮助我获取信息但是我有一些疑问首先我想知道应该将哪个库添加到我的程序中然后什么是 pca
如何将 protobuf-net 与不可变值类型一起使用？

假设我有一个像这样的不可变值类型 Serializable DataContract public struct MyValueType ISerializable private readonly int x private readon
复制 std::function 的成本有多高？

While std function是可移动的但在某些情况下不可能或不方便复制它会受到重大处罚吗它是否可能取决于捕获变量的大小如果它是使用 lambda 表达式创建的它依赖于实现吗 std function通常被实现为值语义小缓
如何创建包含 IPv4 地址的文本框？ [复制]

这个问题在这里已经有答案了如何制作一个这样的文本框我想所有的用户都见过这个并且知道它的功能您可以使用带有 Mask 的 MaskedTestBox000 000 000 000 欲了解更多信息请参阅文档 http msdn micr
由 IHttpClientFactory 注入时模拟 HttpClient 处理程序

我创建了一个自定义库它会自动为依赖于特定服务的 Polly 策略设置HttpClient 这是使用以下方法完成的IServiceCollection扩展方法和类型化客户端方法一个简化的例子 public static IHttpClie
从 Linux 内核模块中调用用户空间函数

我正在编写一个简单的 Linux 字符设备驱动程序以通过 I O 端口将数据输出到硬件我有一个执行浮点运算的函数来计算硬件的正确输出不幸的是这意味着我需要将此函数保留在用户空间中因为 Linux 内核不能很好地处理浮点运算这是设
DbContext 和 ObjectContext 有什么区别

From MSDN 表示工作单元和存储库模式的组合使您能够查询数据库并将更改分组在一起然后将这些更改作为一个单元写回存储 DbContext在概念上类似于ObjectContext 我虽然DbContext只处理与数据库的连接以及针对数
如何检测表单的任何控件的变化？

如何检测 C 中表单的任何控件的更改由于我在一个表单上有许多控件并且如果表单中的任何控件值发生更改我需要禁用按钮我正在寻找一些内置函数事件处理程序属性并且不想为此创建自定义函数不我不知道任何时候都会触发任何事件any控制表
如何禁用 fread() 中的缓冲？

我正在使用 fread 和 fwrite 读取和写入套接字我相信这些函数用于缓冲输入和输出有什么方法可以在仍然使用这些功能的同时禁用缓冲吗 Edit 我正在构建一个远程桌面应用程序远程客户端似乎落后于服务器我不知道可能是什么原因
等待进程释放文件

我如何等待文件空闲以便ss Save 可以用新的覆盖它吗如果我紧密地运行两次左右我会得到一个generic GDI error
Cmake 链接共享库：包含库中的头文件时“没有这样的文件或目录”

我正在学习使用 CMake 构建库构建库的代码结构如下 include Test hpp ITest hpp interface src Test cpp ITest cpp 在 CMakeLists txt 中我用来构建库的句子是 f
为什么 gcc 抱怨“错误：模板参数 '0' 的类型 'intT' 取决于模板参数”？

我的编译器是gcc 4 9 0 以下代码无法编译 template
如何在非控制台应用程序中查看 cout 输出？

输出到调试窗口似乎相当繁琐我在哪里可以找到cout如果我正在编写非控制台信息则输出 Like double i a b cout lt lt b lt lt endl I want to check out whether b is z
按 Esc 按键关闭 Ajax Modal 弹出窗口

我已经使用 Ajax 显示了一个面板弹出窗口我要做的是当用户按 Esc 键时关闭该窗口这可能吗如果有人知道这一点或以前做过这一点请帮助我 Thanks 通过以下链接您可以通过按退出按钮轻松关闭窗口 http www codepro
不同类型指针之间的减法[重复]

这个问题在这里已经有答案了我试图找到两个变量之间的内存距离具体来说我需要找到 char 数组和 int 之间的距离 char data 5 int a 0 printf p n p n data 5 a long int distan
System.IO.FileNotFoundException：找不到网络路径。在 Windows 7 上使用 DirectoryEntry 对象时出现异常

我正在尝试使用 DirectoryEntry 对象连接到远程 Windows 7 计算机这是我的代码 DirectoryEntry obDirEntry new DirectoryEntry WinNT hostName hostName
WebSocket安全连接自签名证书

目标是一个与用户电脑上安装的 C 应用程序交换信息的 Web 应用程序客户端应用程序是 websocket 服务器浏览器是 websocket 客户端最后用户浏览器中的 websocket 客户端通过 Angular 持久创建并且
当从finally中抛出异常时，Catch块不会被评估

出现这个问题的原因是之前在 NET 4 0 中运行的代码在 NET 4 5 中因未处理的异常而失败部分原因是 try finallys 如果您想了解详细信息请阅读更多内容微软连接 https connect microsoft com
如何将 PostgreSql 与 EntityFramework 6.0.2 集成？ [复制]

这个问题在这里已经有答案了我收到以下错误实体框架提供程序类型的实例成员 Npgsql NpgsqlServices Npgsql 版本 2 0 14 2 文化中性 PublicKeyToken 5d8b90d52f46fda7 没

随机推荐

Oracle＜--＞MySQL

to char 123 456 FM9 990 09 format 123 456 2 default en US 9 999 999 to char 123 cast 123 as unsigned int unsigned signed
软件测试工具比较

软件测试工具比较作者乔元来源无忧软件测试网 http www csai cn 2005年11月18日随着软件测试的地位逐步提高测试的重要性逐步显现测试工具的应用已经成为了普遍的趋势目前用于测试的工具已经比较多了这些测试工具
在Ubuntu16.04上安装QQ

在Ubuntu16 04上安装QQ 霾大 1 个月前最近装了双系统win10 ubuntu16 04 想在ubuntu上装个QQ 然后发现在网上找了不少教程都是装的wine qq 装了才发现显示版本过低登不上去啊后来发现用cros
MySQL数据库（二）SQL语言和数据类型

成功不易加倍努力 1 SQL语言 1 1 关系型数据库的常见组件 1 2 SQL语言的兴起与语法标准 2 管理数据库 2 1 创建数据库 2 2 修改数据库 2 3 删除数据库 2 4 查看数据库列表 3 数据类型 3 1 整数型 3 2
linux定时调用存储过程,linux下crontab定时执行shell脚本调用oracle 存储过程

问题脚本内调用存储过程脚本直接执行没问题使用crontab 执行脚本存储过程未执行原因缺少oracle环境变量解决在shell脚本里添加oracle的环境变量 bin sh PATH PATH HOME bin 环境变量 ex
获取层级（结构树）

public ResponseDTO
使用typescript去简单的写一个时间显示的canvas小球

在学习完了ts后一直想找一个项目练手可网上开源的项目写的ts项目还是有点复杂不太适合刚刚学完ts想练手的同学于是就打算自己写一个 ts小项目大概需求就是 1 可以根据当前时间用canvas绘制一个时间 2 可以每隔一秒收集
ld 链接程序出错定位

工具链相关问题一般可 verbose 下看看具体什么地方出问题设置 LDFLAGS Wl verbose 例如链接一堆 o文件只有以下错误信息 ld final link failed Bad value 就可以加入 Wl ver
python3 中的import 和from import 使用区别（包和模块）

python3 中的import 和from import 使用区别包和模块 1 知识点 1 什么是包什么是模块 2 import from import 如何使用 3 import 和 from import 使用区别 2 实现以如
【Flink】第一节源码编译

我认识以及改造flink的第一步从下载编译源码开始 0 环境 idea java 1 8 scala 2 12 flink 1 16 maven setting 核心 nodejs 这个去官网下载安装一下就好 npm v 显示成功就好文末
百度编程大赛试题----类似九格宫(C++算法实现)

转载请标明是引用于 http blog csdn net chenyujing1234 欢迎大家提出意见一起讨论在网上有讲到 lt lt 度编程大赛试题类似九格宫的C 试题 gt gt 的文章 http hi baidu com tw
基于Vue实现的用户可注册登录的Todo-List清单

用到技术 Vue 脚手架路由 element UI 文件目录 src components Enter vue MyBanner vue MyFooter vue MyHeader vue MyItem vue MyList vue pa
定义一个表示学生信息的类Student...

定义一个表示学生信息的类Student 要求如下 1 类Student的成员变量 nO 表示学号 name表示姓名 sex表示性别 age表示年龄 java 表示Java课程成绩 2 类Student带参数的构造方法在构造方法中通过参数完
笔记1 - Web API 的概念和http协议

接口定义接口是个比较泛义上的概念主要表示系统对外交互的部分比如电源插座是电器和电能之间的接口图形界面是应用软件和用户的接口医院挂号大厅是医生和病人之间的接口 webAPI 我们要学习的接口概念缩小到web系统提供的对外消息交互接口
C# 如何在一个项目中引用另外一个项目

C 如何在一个项目中引用另外一个项目直接使用 using namespace 会发现引用不了需要先添加引用勾上需要引用的项目我们再用 using namespace 就会发现可以了
html制作自动切换的广告页,js实现每个IP每天只弹出一次广告页，js实现html自动弹出对话框...

js实现每个IP每天只弹出一次广告页定义Cookie function setCookie name value expire window document cookie name escape value expire null ex
Excalidraw 简介及 Docker Compose 部署指南

家人们好我们在工作生活中经常需要画些图我们往期了已经出过draw io私有化部署的文章了今天我要向大家介绍一款名为 Excalidraw 的绘图工具这款工具了我个人非常喜欢使用是因为它可以修改成类似于手写体的字体并且可以直接绘画
深度学习&图像处理（深度学习的医学图像分割3.1）

基于深度学习的医学图像分割模型研究曹祺炜 1 基于改进的3D FCN CRF以及MS CapsNetGAN实现脑肿瘤图像分割图像语义分割简单而言就是给定一张图片对图片上的每一个像素点分类不同颜色代表不同类别图像分割的主要步骤图
mysql安装配置——超详细图文教程

相关资源包进群自取 953882093 1 首先单击MySQL5 5 21的安装文件出现该数据库的安装向导界面单击 next 继续安装如图所示 2 在打开的窗口中选择接受安装协议单击 next 继续安装如图所示 3 在出现选择安
C# 提取 PDF 文档中的文本

安装 IText7 首先在 Nuget 包管理器中安装 itext7 和 itext7 font asian 如果不安装 itext7 font asian PDF 文件中有非Unicode编码的字符将会抛出运行时异常 iText IO

C# 提取 PDF 文档中的文本

安装 IText7

示例代码

C# 提取 PDF 文档中的文本 的相关文章

随机推荐

热门标签

C# 提取 PDF 文档中的文本的相关文章