去年,我使用 PDFBox 在 Java 中创建了一个应用程序来获取某些 PDF 文件中的原始文本,现在我需要将该应用程序移植到 C++。
我想知道什么是最好的 C++ 替代方案来完成我的需要。
我会举一个例子,以防有帮助:
大多数文件看起来像这样:http://www.jumbala.net/backup/league.pdf http://www.jumbala.net/backup/league.pdf
对于 PDFBox,使用该文件,在第 2 页上读取的每一行和第 3 页的大部分内容都会输出一行的所有数据,并用空格分隔,而不是像现在一样将其保留在网格中。
因此第 2 页中的第一个相关行将如下所示:
FB 847 - Tremblay, Gérard 179,63 56 16167 90 268 s27 p3 669 s14 199 223 193 615
或类似的东西,因为它们出现的顺序有微小的变化,但只要类似的行输出相同,我就不关心这一点,因为我只是解析它们并将我需要的值放在不同的变量中。
那么,了解了所有这些之后,是否有一个库可以在 C++ 程序中使用来获得类似的结果?
Edit:查看sacredFaith的链接后http://www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-file http://www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-file尝试一下,我得到了一个奇怪的输出,就像我之前提到的示例文件一样:
http://www.jumbala.net/backup/league.pdf.txt http://www.jumbala.net/backup/league.pdf.txt
我真正需要的部分是在开头的奇怪字符中。使用 Adobe Acrobat Reader X 并使用另存为...文本(可访问),我得到以下结果:
http://www.jumbala.net/backup/league_good.pdf.txt http://www.jumbala.net/backup/league_good.pdf.txt
这大约是我使用 PDFBox 在 Java 中得到的结果以及我想要在 C++ 中得到的输出结果。