是否有一个 C++ 库可以从 PDF 文件中提取文本，例如 PDFBox for Java？ [关闭]

2024-05-17

去年，我使用 PDFBox 在 Java 中创建了一个应用程序来获取某些 PDF 文件中的原始文本，现在我需要将该应用程序移植到 C++。

我想知道什么是最好的 C++ 替代方案来完成我的需要。

我会举一个例子，以防有帮助：

大多数文件看起来像这样：http://www.jumbala.net/backup/league.pdf http://www.jumbala.net/backup/league.pdf

对于 PDFBox，使用该文件，在第 2 页上读取的每一行和第 3 页的大部分内容都会输出一行的所有数据，并用空格分隔，而不是像现在一样将其保留在网格中。

因此第 2 页中的第一个相关行将如下所示：

FB 847 - Tremblay, Gérard 179,63 56 16167 90 268 s27 p3 669 s14 199 223 193 615

或类似的东西，因为它们出现的顺序有微小的变化，但只要类似的行输出相同，我就不关心这一点，因为我只是解析它们并将我需要的值放在不同的变量中。

那么，了解了所有这些之后，是否有一个库可以在 C++ 程序中使用来获得类似的结果？

Edit:查看sacredFaith的链接后http://www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-file http://www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-file尝试一下，我得到了一个奇怪的输出，就像我之前提到的示例文件一样：

http://www.jumbala.net/backup/league.pdf.txt http://www.jumbala.net/backup/league.pdf.txt

我真正需要的部分是在开头的奇怪字符中。使用 Adobe Acrobat Reader X 并使用另存为...文本（可访问），我得到以下结果：

http://www.jumbala.net/backup/league_good.pdf.txt http://www.jumbala.net/backup/league_good.pdf.txt

这大约是我使用 PDFBox 在 Java 中得到的结果以及我想要在 C++ 中得到的输出结果。

Xpdf http://www.foolabs.com/xpdf/是一个 C++ 应用程序/库，其中包含从 PDF 文件中提取纯文本的工具。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

pdf

是否有一个 C++ 库可以从 PDF 文件中提取文本，例如 PDFBox for Java？ [关闭] 的相关文章

属性对象什么时候创建？

由于属性实际上只是附加到程序集的元数据这是否意味着属性对象仅根据请求创建例如当您调用 GetCustomAttributes 时或者它们是在创建对象时创建的或者前两个的组合在由于 CLR 的属性扫描而创建对象时创建从 CLR
fgets() 和 Ctrl+D，三次才能结束？

I don t understand why I need press Ctrl D for three times to send the EOF In addition if I press Enter then it only too
Cygwin 下使用 CMake 编译库

我一直在尝试使用 CMake 来编译 TinyXML 作为一种迷你项目尝试学习 CMake 作为补充我试图将其编译成动态库并自行安装以便它可以工作到目前为止我已经设法编译和安装它但它编译成 dll 和 dll a 让它工作的唯一
为什么 POSIX 允许在只读模式下超出现有文件结尾 (fseek) 进行搜索

为什么寻找文件结尾很有用为什么 POSIX 让我们像示例中那样在以只读方式打开的文件中进行查找 c http en cppreference com w c io fseek http en cppreference com w c io
使用 C# 在 WinRT 中获取可用磁盘空间

DllImport kernel32 dll SetLastError true static extern bool GetDiskFreeSpaceEx string lpDirectoryName out ulong lpFreeBy
如何针对 Nancy 中的 Active Directory 进行身份验证？

这是一篇过时的文章但是http msdn microsoft com en us library ff650308 aspx paght000026 step3 http msdn microsoft com en us library
C# 用数组封送结构体

假设我有一个类似于 public struct MyStruct public float a 我想用一些自定义数组大小实例化一个这样的结构在本例中假设为 2 然后我将其封送到字节数组中 MyStruct s new MyStruct s
HttpClient 像浏览器一样请求

当我通过 HttpClient 类调用网站 www livescore com 时我总是收到错误 500 可能服务器阻止了来自 HttpClient 的请求 1 还有其他方法可以从网页获取html吗 2 如何设置标题来获取html内容当
当 Cortex-M3 出现硬故障时如何保留堆栈跟踪？

使用以下设置基于 Cortex M3 的 C gcc arm 交叉工具链 https launchpad net gcc arm embedded 使用 C 和 C FreeRtos 7 5 3 日食月神 Segger Jlink 与 J
.NET 选项将视频文件流式传输为网络摄像头图像

我有兴趣开发一个应用程序它允许我从 xml 构建视频列表包含视频标题持续时间等并将该列表作为我的网络摄像头流播放这意味着如果我要访问 ustream tv 或在实时通讯软件上激活我的网络摄像头我的视频播放列表将注册为我的活动网
AccessViolationException 未处理

我正在尝试使用史蒂夫桑德森的博客文章 http blog stevensanderson com 2010 01 28 editing a variable length list aspnet mvc 2 style 为了在我的 ASP
检查 url 是否指向文件或页面

我们需要以下内容如果文件确实是文件则从 URL 下载该文件否则如果它是一个页面则什么也不做举个简单的例子我有以下命令来下载文件 My Computer Network DownloadFile http www wired c
在 URL 中发送之前对特殊字符进行百分比编码

我需要传递特殊字符如等 Facebook Twitter 和此类社交网站的 URL 为此我将这些字符替换为 URL 转义码 return valToEncode Replace 21 Replace 23 Replace 24 Rep
EPPlus Excel 更改单元格颜色

我正在尝试将给定单元格的颜色设置为另一个单元格的颜色该单元格已在模板中着色但worksheet Cells row col Style Fill BackgroundColor似乎没有get财产是否可以做到这一点或者我是否必须在互联
作为字符串的动态属性名称

使用 DocumentDB 创建新文档时我想设置属性名称动态地目前我设置SomeProperty 像这样 await client CreateDocumentAsync dbs db colls x new SomeProperty
如何构建印度尼西亚电话号码正则表达式

这些是一些印度尼西亚的电话号码 08xxxxxxxxx 至少包含 11 个字符长度 08xxxxxxxxxxx 始终以 08 开头我发现这个很有用 Regex regex new Regex 08 0 9 0 9 0 9 0 9 0 9
Bing 地图运行时错误 Windows 8.1

当我运行带有 Bing Map 集成的 Windows 8 1 应用程序时出现以下错误 Windows UI Xaml Markup XamlParseException 类型的异常发生在 DistanceApp exe 中但未在用户
窗体最大化时自动缩放子控件

有没有办法在最大化屏幕或更改分辨率时使 Windows 窗体上的所有内容自动缩放我发现手动缩放它是正确的但是当切换分辨率时我每次都必须更改它 this AutoScaleDimensions new System Drawing Siz
如何使用 ReactiveList 以便在添加新项目时更新 UI

我正在创建一个带有列表的 Xamarin Forms 应用程序 itemSource 是一个reactiveList 但是向列表添加新项目不会更新 UI 这样做的正确方法是什么列表定义 listView new ListView var
如何将字符串“07:35”(HH:MM) 转换为 TimeSpan

我想知道是否有办法将 24 小时时间格式的字符串转换为 TimeSpan 现在我有一种旧时尚风格 string stringTime 07 35 string values stringTime Split TimeSpan ts new

随机推荐

BigQuery 标准 SQL 错误，根本未触及日期字段时的时间戳无效

答案here https stackoverflow com questions 41195883 bigquery standard sql error invalid timestamp对我没有帮助尽管我在一个相当简单的更新查询中遇到
Silverlight Datagrid：在对列进行排序时突出显示整个列

我的 Silverlight 应用程序中有一个 DataGrid 我想在对该列进行排序时突出显示整个列它在概念上与上一个问题类似 Silverlight DataGrid 突出显示整列 https stackoverflow com qu
除法和乘法 2 的幂

我在一篇论文中读到数字除以 2 的幂并乘以 2 的幂是一个微不足道的过程我在互联网上搜索了很多解释但没有得到它任何人都可以用简单的语言解释一下这实际上意味着什么从位操作的角度来看这是微不足道的乘以2相当于左移1位除法相当于右
OxyPlot WPF 不适用于按钮单击

我在使用 OxyPlot 时遇到了一些问题但无法通过他们的文档或其他搜索来解决我正在开发一个 wpf 应用程序它允许用户通过按钮单击事件打开 csv 然后执行一些数学运算并报告一些有用的信息我想绘制一些生成的数据因此使用 OxyP
iOS 视图控制器内存在被关闭后未释放

当用户单击按钮时它会显示一个带有两个视图控制器的新选项卡栏视图控制器我是这样做的 ACLevelDownloadController dvc ACLevelDownloadController alloc initWithNibName
Python问题：打开和关闭文件返回语法错误

大家好我发现了这个有用的 python 脚本它允许我从网站获取一些天气数据我将创建一个文件和其中的数据集有些东西不起作用它返回此错误 File
尝试创建发布包时无法解析模块“AccessibilityInfo”

我在跑步 react native bundle platform windows dev false entry file index windows js bundle output windows app ReactAssets in
Google Sheets 自定义数字格式、颜色规范

我有一个自定义的百分比数字格式这是代码 Green 0 0 Red 0 0 输出预览 Positive 123 456 0 Green Negative 123 456 0 Red 我想要绿色更深一些我已经尝试过了 Dark Green
Windows Phone 8 错误 - 应用程序安装失败

我正在开发一个 Windows Phone 8 项目我们通过 HockeyApp 将其部署为公司应用程序我有一个从我们的赛门铁克证书生成的 PFX 文件并且设备上安装了正确的 aetx 文件如果我获取打算部署的 XAP 文件并将其复
F# 检查列表是否为空

作为 F 新手我正在尝试实现一个简单的函数该函数将索引和列表作为参数然后返回给定索引的列表值 let rec getElementAtIndex index int list a list match index list with
32位PPC rlwinm指令

我在理解上有点困难rlwinmPPC 汇编指令旋转左字立即然后与掩码我正在尝试反转函数的这一部分 rlwinm r3 r3 0 28 28 我已经知道什么了r3 is r3在本例中是一个 4 字节整数但我不确定这条指令到底是什么rlw
尝试通过 Google Drive API 创建权限时出现错误“需要权限类型字段”

我改编了 Google Drive API Quickstart for Node js 中的代码发现here https developers google com drive v3 web quickstart nodejs 20 2
如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道我们可以将生成的 DataFrame 转换为 DataSet 我的问题是如果我们仍然遵循传统的
Resteasy 可以查看 JAX-RS 方法的参数类型吗？

我们使用 Resteasy 3 0 9 作为 JAX RS Web 服务最近切换到 3 0 19 我们开始看到很多RESTEASY002142 Multiple resource methods match request警告例如我们
如何在Android中解析xml类型的HTTPResponse

我有一个 Android 应用程序我使用 POST 方法来获取响应这是我的代码 HttpResponse httpResponse httpclient execute httppost HttpEntity resEntity htt
ios 导航堆栈操作

我在尝试从 iOS 应用程序操作导航堆栈时遇到问题或者至少是由于这种操纵而产生的行为我的情况我有 3 个 ViewController 控制器a显示多个级别控制器 b 是游戏视图控制器 c 是某种分数显然我将在控制器 a 中选
如何为SQL Server 2005实例中的所有数据库创建DDL触发器

我将为 SQL Server 实例中的所有数据库创建一个 DDL 触发器我想在一次运行中完成此操作而不是为每个数据库运行多次下面是我需要执行的两个 T SQL 语句 Create table use
WPF ListBox - 如何从数据表中放入值？

I have ListBox并希望将值放入此列表框中DataTable listBoxVisibleFields DataContext SelectedFields Where SelectedFields is a DataTable充
HTML 输入 - 名称与 ID [重复]

这个问题在这里已经有答案了使用 HTML 时
是否有一个 C++ 库可以从 PDF 文件中提取文本，例如 PDFBox for Java？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案去年我使用 PDFBox 在 Java 中创建了一个应用程序来获取某些 PDF 文件中的原始文本现在

是否有一个 C++ 库可以从 PDF 文件中提取文本，例如 PDFBox for Java？ [关闭]

是否有一个 C++ 库可以从 PDF 文件中提取文本，例如 PDFBox for Java？ [关闭] 的相关文章

随机推荐

热门标签