以编程方式识别 PDF 文件中的扫描文本 [关闭]

2024-05-13

我有一个 PDF 文件，其中包含我们需要导入数据库的数据。这些文件似乎是打印的字母数字文本的 pdf 扫描件。貌似是10分英语字体格式一种。

是否有任何工具或组件可以让我识别和解析此文本？

我用过pdf转html http://pdftohtml.sourceforge.net/成功地将表格从 PDF 中剥离为 CSV。它基于Xpdf http://www.foolabs.com/xpdf/portsntools.html，这是一个更通用的工具，包括pdf转文本 http://en.wikipedia.org/wiki/Pdftotext。我只是将其包装为来自 C# 的 Process.Start 调用。

如果您正在寻找更 DIY 一点的东西，这里有iTextSharp http://itextsharp.sourceforge.net/库 - Java 的一个端口iText http://www.1t3xt.com/products/index.php - and PDFBox http://www.pdfbox.org/（是的，它说的是 Java - 但他们有一个 .NET 版本IKVM.NET http://www.ikvm.net/）。这里有一些关于使用的 CodeProject 文章iTextSharp http://www.codeproject.com/KB/cs/PDFToText.aspx and PDFBox http://www.codeproject.com/KB/string/pdf2text.aspx来自 C#。

而且，如果你是really一个受虐狂，你可以调用 Adobe 的PDF I过滤器 http://www.adobe.com/support/downloads/detail.jsp?ftpID=2611与 COM 互操作。这过滤器规格 http://msdn.microsoft.com/en-us/library/ms691105.aspx非常简单，但我猜互操作开销会很大。

编辑：重新阅读问题和后续答案后，很明显OP正在处理images在他的 PDF 中。在这种情况下，您需要提取图像（上面的 PDF 库可以相当轻松地做到这一点）并通过 OCR 引擎运行它。

我用过MODI http://en.wikipedia.org/wiki/Microsoft_Office_Document_Imaging之前进行过交互，取得了不错的效果。它是 COM，因此通过互操作从 C# 调用它也是如此doable http://secure.codeproject.com/KB/office/OCRSampleApplication.aspx和漂亮simple http://msdn.microsoft.com/en-us/library/aa167607.aspx:

' lifted from http://en.wikipedia.org/wiki/Microsoft_Office_Document_Imaging
Dim inputFile As String = "C:\test\multipage.tif"
Dim strRecText As String = ""
Dim Doc1 As MODI.Document

Doc1 = New MODI.Document
Doc1.Create(inputFile)
Doc1.OCR()  ' this will ocr all pages of a multi-page tiff file
Doc1.Save() ' this will save the deskewed reoriented images, and the OCR text, back to the inputFile

For imageCounter As Integer = 0 To (Doc1.Images.Count - 1) ' work your way through each page of results
   strRecText &= Doc1.Images(imageCounter).Layout.Text    ' this puts the ocr results into a string
Next

File.AppendAllText("C:\test\testmodi.txt", strRecText)     ' write the OCR file out to disk

Doc1.Close() ' clean up
Doc1 = Nothing

其他人喜欢超立方体 http://code.google.com/p/tesseract-ocr/，但我有直接的经验。我听说过有关它的好消息和坏消息，所以我想这很大程度上取决于您的源质量。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pdf

OCR

以编程方式识别 PDF 文件中的扫描文本 [关闭] 的相关文章

将姓名拆分为名字和姓氏 Java（Android OCR）[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我使用本机 Android JAVA 创建了一个 OCR 光学字符识别应用程序我可以将图像转换为文本视图但是我如何使用这些词分别识别名
使用 Quartz 创建 PDF 注释 (iOS)

有人设法使用 Quartz 在现有 PDF 中编写自定义注释吗我已经使用 CGPDFDocumentRef 等渲染了 PDF 现在工作正常我成功地阅读了 Annots 字典 if CGPDFDictionaryGetArray page
是否可以修改 PDF 表单字段名称？

情况是这样的我有一个 PDF 其中包含自动生成的 pdf 表单字段名称问题是这些名称不太用户友好它们看起来像 topmostSubform 0 Page1 0 Website Address 0 我希望能够更改它们使它们类似于 We
无法使用文件提供程序从内部存储打开 PDF 以便在 Android 8 和 9 上查看

仅适用于 Android 8 和 9 我这里有一个 PDF 文件管理器 String url file storage emulated 0 Android data com verna poc files Download mypdf p
在 Flutter 中显示 iOS 的 PDF 内联文件

我正在 flutter 中专门为 iOS 开发一个应用程序现阶段我需要向其中添加 PDF 文件问题是 flutter 没有原生的方式来显示 PDF 文件据我研究由此tread https github com flutter fl
jasper 报告 pdf 导出中忽略半透明（半透明）背景色

问为什么保存为 PDF 时 Alpha 信息会丢失 Jaspersoft studio 不允许我用 Alpha 指定颜色因此我尝试聪明地在着色元素上指定键并更改代码中的颜色如下所示 JasperReport jasperRepor
合并两个（或更多）PDF

背景我需要为我的销售人员提供每周报告包该包包含几个 5 10 个水晶报告 Problem 我想允许用户运行所有报告并且只运行单个报告我想我可以通过创建报告然后执行以下操作来做到这一点 List
在 Python 中静默打印 PDF

我正在尝试使用 Python 打印 PDF 而不打开 PDF 查看器应用程序 Adobe Foxit 等我还需要知道打印何时完成以删除文件 Here http permalink gmane org gmane comp python
使用 Spring MVC 返回 PDF 文件

实际上我有这个功能我有一个框架可以在其中设置 URL ip port birt preview report report rptdesign format pdf parameters 并且该框架呈现 PDF 文件但我想隐藏该网址
PyFPDF在指定大小时无法添加页面

在 pyfpdf 文档上据说可以在添加页面时指定格式 fpdf add page orientation format same False 但在指定格式时它给了我一个错误 error pdf add page format 1000 10
邪恶的pdf在两页上渲染最后一行

我在用邪恶 pdf https github com mileszs wicked pdf生成 pdf 我面临的问题是有时它会跨两页显示页面中的最后一行如果 wicked pdf 无法容纳该页面中的整个行或者对页面中的行数设置限制有
在Python中读取PDF属性/元数据

如何使用 Python 读取 PDF 文件中存储的属性元数据例如标题作者主题和关键字 Try pdfminer https github com euske pdfminer from pdfminer pdfparser impo
如何在模态窗口中显示pdf？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个模式窗口其中包含锚文本当我单击此链接时它必须调用其他位置的 pdf 并将其显示在弹出窗口中我怎样才能做到这一点请帮忙
裁剪 .pdf 文件的页面

我想知道是否有人有以编程方式处理 pdf 文件的经验我有一个 pdf 文件我需要将每一页裁剪到一定大小经过快速谷歌搜索后我找到了 python 的 pyPdf 库但我的实验失败了当我更改页面对象上的cropBox 和trimBo
在 Apple TV tvOS 中渲染 PDF

我正在为我的 tvOS 应用程序添加一个附加功能允许查看应用程序中存储的 PDF 但是如果没有 UIWebView 我不知道如何做到这一点我在其他地方提出了问题并收到了一个来自 Apple 的关于可以使用的 API 的冗长而无助的文
通过 PDFBox 访问图像的“替代文本”

有没有某种方法可以使用提取特定图像的替代文本 PDFBox http pdfbox apache org 我有一个 PDF 文件如所述http www w3 org WAI GL 2011 WD WCAG20 TECHS 2011062
如何在 Ubuntu/Linux 发行版中安装 Tesseract-OCR 3.03？

我和一个朋友有兴趣为 CV 项目训练 tesseract OCR 引擎我们尝试使用一些包装器例如 PyTesser 和 pyocr 但结果目前不如我们需要的那么准确因此我们希望尝试训练超立方体以更好地实现我们的目的即识别食品标签上
带有嵌入 Flash 视频的 PDF 示例？

有谁知道我在哪里可以查看嵌入 Flash 视频的 PDF 示例我知道问这个问题很愚蠢因为你会认为任何面向技术的用户都应该能够使用谷歌找到一个但我真的找不到我的另一个问题是使用 C 中的 API 将 Flash 视频嵌入 PDF 文
在 Rails 中强制内联渲染 PDF 文档

我正在编写一个从一组 XML 文件生成 PDF 文件的服务正在正确生成 PDF 但是每次我单击查看 PDF 链接时浏览器都会要求用户下载 PDF 文件我需要 PDF 内联显示就像任何常规 HTML 页面一样我虽然我写的代码是正
如何使用Nodejs将json数据导出为指定格式的pdf文件？

我是nodejs的初学者我正在编写一个程序将文本数据从 json 文件转换为 pdf 文件这是我的输入文件 input json Info Company ABC Team JsonNode Number of members 4 T

随机推荐

Python Twisted 和数据库连接

我们的工作项目包括同步应用程序短期和异步 Twisted 应用程序长期我们正在重构我们的数据库并将构建一个 API 模块来解耦该模块中的所有 SQL 我想创建该 API 以便同步和异步应用程序都可以使用它对于同步应用程序我希望
参数绑定的名称不能为 null 或为空！对于命名参数，您需要在 Java 版本上使用 @Param 来查询方法参数

这之前已经发布过但我的问题有点不同这是有问题的 JPQL 查询 Query SELECT NEW com htd domain ShopOrder po id po po number po due date po part id po
如何使用 python 在白色背景上裁剪图像？

我正在扫描旧照片因此我有来自扫描仪的图像和白色背景我的目的是拍照去除白色背景我怎样才能做到这一点 An example picture is the following 我的简单方法 import os import time fr
AngularJS 控制器等待响应（或设置回调）

我有一个带有controllers js 和factories js 的AngularJS 应用程序我喜欢用控制器中的值我从工厂获得做一些事情我的问题是当我访问这些值时它们是空的我怎样才能等待回复或者在哪里可以添加回调 Fla
Django：出于测试目的阻止互联网连接

我想确保我的单元测试不会尝试连接到互联网有没有办法在连接时引发异常有一个类似的问题Python 出于测试目的阻止网络连接 https stackoverflow com questions 18601828 python block n
弹出表单可见，但 Puppeteer 中缺少 html 代码

我目前正在尝试从网站获取一些信息 https www bauhaus info https www bauhaus info 并在 cookie 弹出表单中失败到目前为止这是我的代码 async gt const browser awa
Django - 找不到静态文件

我看过有关此问题的几个帖子但没有找到我的解决方案我正在尝试在 Django 1 3 开发环境中提供静态文件这是我的设置 STATIC ROOT home glide Documents django cbox static STATI
对 CSV 行使用小写函数

我正在尝试以小写形式打印 csv 中的所有数据但我没有任何运气这是我到目前为止所拥有的 import csv books csv reader open books csv rb for row in books print row 这
如何获取 Minecraft 会话 ID？

我正在尝试制作 Minecraft 客户端但不知道如何获取会话 ID 来启动游戏我已经做了一些谷歌搜索但无论如何都找不到从中获取它这个答案从命令行启动 Minecraft 用户名和密码作为前缀 https stackoverflow
文件名字符导致打开失败：EINVAL（无效参数）

我想创建一个文件名采用以下格式的文件 DAY MONTH YEAR HOUR MINUTE但是当我使用 or and 我越来越open failed EINVAL例外我试图逃离这些字符但没有快乐是否有禁止的文件名字符列表 String
Android：如何按设备类型（平板电脑、手机）设置强制设备方向？

我需要根据设备类型设置力方向设备以使用相关视图平板电脑为横向视图移动设备为纵向视图旋转无法在设备上更改因为我想在应用程序启动期间设置所有活动的方向所以我认为我应该识别主活动中的设备类型该活动由与视图相关的其他活动扩展请问我怎
如何在 switch 语句中将向量作为参数传递

我对问题的谷歌搜索没有返回有用的结果和文档 switch没有告诉我如何做所以我希望我能在这里得到答案假设我有一个向量 cases lt c one two three 我想使用 switch 语句并将这些元素作为 switch 语句的参
PHP 将页面生成的标题放入

我们在网站的所有页面中包含一个 header php 文件因此我们可以在 header php 文件中放置一个标题该标题将应用于整个站点或者在每个页面中添加一个自定义标题以更具描述性问题是这样做时标题将位于 head 标签之外
使用“actioncolumn”时如何执行视图控制器分离（Ext.grid.column.Action）

在 ExtJS 4 中我有一个包含操作列的网格每当触发该操作时我想执行我的操作如果没有 MVC 这将如下所示 xtype gridpanel columns xtype actioncolumn items handler fun
导入邻居模块时如何正确使用导入

我的项目目录看起来是这样的 project moduleA a py init py moduleB b py init py 在文件a py中我想从b py导入函数 pycharm建议我这样做 file a py from moduleB
static_cast 到相同类型会引入运行时开销吗？

我有一个结构模板有两种类型 T and S 并在某些时候使用static cast从一种类型转换为另一种类型经常出现这样的情况T and S是同一类型设置的简化示例 template
这个shared_ptr是如何自动转换为裸指针的呢？

我正在学习enable shared from this现在是 C 11 有一个例子让我很困惑如何shared ptr返回类型shared from this 可以转换为这个原始指针吗 include
如何根据纬度和经度获取国家名称

如何使用 C 从纬度和经度获取国家地区名称我正在使用 Bing Map API Location location12 new Location location Latitude location Longitude MapLayer
Javascript中“从长重新定义为双”是什么意思

我读了Javascript文档才知道鼠标事件 clientX https developer mozilla org en US docs Web API MouseEvent clientX 我不明白何时以及为什么使用从长到双重新定义
以编程方式识别 PDF 文件中的扫描文本 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我有一个 PDF 文件其中包含我们需要导入数据库的数据这些文件似乎是打印的字母数字文本的 pdf

以编程方式识别 PDF 文件中的扫描文本 [关闭]

以编程方式识别 PDF 文件中的扫描文本 [关闭] 的相关文章

随机推荐

热门标签