字符识别（OCR算法）[关闭]

2024-01-25

我正在开发一个项目，其中我必须开发 OCR 算法（我必须从图像中读取文本，然后将其转换为不同的语言）。所以我的第一个任务是从图像中获取文本。

完成第一个任务的步骤。

从给定源加载任何图像格式（bmp、jpg、png）。然后将图像转换为灰度并使用阈值（Otsu算法）将其二值化。 //已完成（如何从输出图像中去除噪声？？？）

Results

检测图像特征，如分辨率和反转。这样我们最终就可以将其转换为拉直的图像以进行进一步的处理。（完成了图像旋转的代码，但无法检测我们必须旋转图像的图像角度，因此仍在研究角度检测部分）
线路检测和删除。需要此步骤来改进页面布局分析、对下划线文本实现更好的识别质量、检测表格等（决定在末尾完成该部分）
页面布局分析。在此步骤中，我尝试识别图像中存在的文本区域。因此，只有该部分用于识别，而该区域的其余部分被忽略。
检测文本行和单词。这里我们还需要注意不同的字体大小和单词之间的小间距。
字符识别。这是OCR的主要算法；每个字符的图像必须转换为适当的字符代码。有时，该算法会为不确定的图像生成多个字符代码。例如，识别“I”字符的图像可以产生“I”、“|”。 “1”、“l”代码和最终的字符代码将在稍后选择。
将结果保存为选定的输出格式，例如可搜索的 PDF、DOC、RTF、TXT。保存原始页面布局很重要：栏目、字体、颜色、图片、背景等。

所以我在第 6 部分中需要帮助。我已经完成了行检测部分（从包含 n 行的段落中获取 n 个图像），但卡在下一部分中获取单词和字符识别。如果您知道与 OCR 和字符识别部分相关的良好链接，请发布这里。

对于字符识别，我正在考虑使用 asprise（Java 库）http://asprise.com/product/ocr/index.php?lang=java http://asprise.com/product/ocr/index.php?lang=java

检测旋转角度，使用霍夫变换 http://en.wikipedia.org/wiki/Hough_transform.

For 降噪，将任何没有邻居（北、东、南或西）的像素替换为相同颜色（相似的颜色，使用容差阈值），以及邻居的平均值。

搜索垂直白色间隙布局检测。沿着垂直间隙切片。对于每个切片，现在搜索水平间隙并切片。如果切片具有相同（相似）的高度，则处于线水平。否则重复垂直/水平切片，直到只剩下线条。最后一步再次是垂直切片，为您提供单个字符（或在某些情况下为连字）。长而窄或短而宽的切片都是线。

将字符切片与字符库进行比较。如果性能不是主要考虑的问题，请尝试在不同的字体库中查找字符，直到可以识别所使用的字体。然后坚持使用该字体字符识别.

在原始图像中，将每个字符替换为背景颜色，背景颜色是通过为字符的每个像素插入不属于字符的像素来确定的。这给你背景图，如果有的话。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

OCR

字符识别（OCR算法）[关闭] 的相关文章

有人可以帮我在 android 中使用 ocr 名片扫描仪吗？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
用于 OCR 的 Python OpenCV 倾斜校正

目前我正在开发一个 OCR 项目需要读取标签上的文本请参见下面的示例图片我遇到了图像倾斜的问题我需要帮助修复图像倾斜以便文本是水平的而不是成角度的目前我正在使用的过程尝试从给定范围下面包含代码对不同角度进行评分但这种方
java中pdf解析为文本

我有一个阿拉伯语 PDF 我想使用 Java 将其解析为文本文档我已经尝试了很多次英语单词解析成功但阿拉伯语单词解析失败谁能推荐一个可以正确转换阿拉伯语单词的解决方案我想到了几个图书馆阿帕奇蒂卡 http tika apache
如何在 OCR 中区分斜线零和八 (0->8)

我正在为我的 Android 应用程序使用 ML Kit for Firebase ReCalc 收据计算器 https play google com store apps details id info trekto receipts
OCR 处理前的图像预处理

我当前的项目涉及将 pdf 中的文本转录为文本文件我首先尝试将图像文件直接放入 OCR 程序 tesseract 中但效果不佳原始图像文件基本上是旧报纸并且有一些背景噪音我确信 tesseract 存在问题因此我尝试在将图像输
通过 pytesseract 和 PIL 提高文本识别的准确性

所以我试图从图像中提取文本由于图像的质量和尺寸不好因此给出的结果不准确我尝试了一些 PIL 的增强功能和其他功能但这只会恶化图像质量有人可以建议对图像进行一些增强以获得更好的结果一些图像示例在提供的图像示例中文本的视觉质量非
使用 Google App Script 从 google 驱动器中进行 OCR 图像

我已经实现了以下脚本使用图像 URL 对单个和多个图像进行 OCR function doOCRALL var selected SpreadsheetApp getActiveSheet getActiveRange getValues
OCR：图像转文本？

在标记为复制或重复问题之前请先阅读整个问题我目前能做的如下获取图像并裁剪 OCR 所需的部分使用处理图像tesseract and leptonica 当应用的文档被裁剪成块即每个图像 1 个字符时它提供 96 的准确度如果
Pytesseract 对于实时 OCR 来说非常慢，有什么方法可以优化我的代码吗？

我正在尝试使用 python 创建实时 OCRmss and pytesseract 到目前为止我已经能够捕获整个屏幕其 FPS 稳定为 30 如果我想捕获大约 500x500 的较小区域我已经能够获得 100 FPS 然而一旦我包
c# OCR无法识别数字（tesseract 2）

I m trying to extract digits from the following 它失败了我得到了作为回报我正在使用 google 的 tesseract 2 使用 C 开源 c 包装器现在我想知道这个图像是否太糟糕
使用 OpenCV 对 Tesseract OCR 进行图像预处理

我正在尝试开发一个应用程序它使用 Tesseract 来识别手机摄像头拍摄的文档中的文本我使用 OpenCV 来预处理图像以实现更好的识别应用高斯模糊和阈值方法进行二值化但结果非常糟糕 Here https s6 postimg c
图像中的文本检测

I am using below sample code for text detection in images not handwritten using coreml and vision https github com DrNeu
断言失败 - 训练 Tesseract

我正在尝试使用 Serak Tesseract Trainer 训练 tesseract https code google com p serak tesseract trainer https code google com p ser
OCR 解析获取复选框或单选按钮值

I need to parse OCR image file and get all texts and checkbox values How to get Checkbox or Radio Button value from OCR
用于屏幕文本的 OCR（光学字符识别）

我正在尝试创建一个软件通过捕获屏幕截图来自动化 PC 然后使用 OCR 光学字符识别来查找要单击的特定按钮例如我已经有了鼠标和键盘控制部分但现在我需要 OCR 来处理屏幕截图我发现 Tesseract OCR 似乎不能很好地处
从图像中识别数字

我正在尝试编写一个应用程序来查找图像内的数字并将它们相加如何识别图像中的书写数字图像中有很多框我需要获取左侧的数字并将它们相加得出总数我怎样才能实现这个目标编辑我对图像进行了 java tesseract ocr 但没有得到任何
Tesseract 是否会忽略扫描文档中的任何非文本区域？

我正在使用 Tesseract 但我不知道它是否忽略任何非文本区域并仅针对文本我是否必须删除任何非文本区域作为预处理步骤以获得更好的输出 Tesseract 有一个非常好的算法来检测文本但它最终会给出误报匹配理想情况下您应该在将图像
以编程方式识别 PDF 文件中的扫描文本 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我有一个 PDF 文件其中包含我们需要导入数据库的数据这些文件似乎是打印的字母数字文本的 pdf
训练 tesseract 与 iPhone 一起使用

我正在尝试在我的 iPhone 应用程序中使用 tesseract 2 04 只想检测数字我在这里所做的首先是使用这篇文章交叉编译 tesseract 以生成 lib 文件http robertcarlsen net 2009 07 15
来自 Google Vision API OCR 的响应 400，带有指定图像的 base64 字符串

我读了如何使用 Google Vision API 对 Base64 编码图像进行文本检测 https stackoverflow com questions 43094048 how to use the google vision ap

随机推荐

Delphi 编程中的枚举、常量、类常量

我在 ClientDataSet 中有一个整数字段我需要与一些值进行比较如下所示我可以使用常量 const mvValue1 1 mvValue2 2 if ClientDataSet Field AsInteger mvValue1
为什么空行中的缩进不好？

我知道的每个自由开源项目都有针对代码中尾随空格的规则但我认为在下一行继续当前的缩进是很自然的 int main int a 42 return a 但 git 无论如何都会抛出警告所以我的问题是为什么这些选项卡inside目前的缩进不
GACUtil“程序集已成功添加到缓存”但“项目数 = 0”

为什么当我跑步时 gacutil i myAssembly dll 我得到 Assembly successfully added to the cache 但当我跑步时 gacutil l myAssembly dll I get Nu
Google 地图 KML：8 位十六进制代码

我是 Google 地图和 KML 的新手我的 KML 文件在地图上渲染多边形但我想更改多边形上的填充颜色和多边形的线条颜色问题是我无法以 8 位十六进制创建颜色每当我认为我的颜色正确时它的渲染效果就不像我想象的那样我似乎无法在
如何在 SQL 中取消透视？ (SAP HANA)（列到行）

我需要取消透视 SAP HANA 中的一些数据我设置了一个示例表来尝试一下但我仍然一无所获实际的表包含 1000 个 ID 和大约 50 个列但我想对许多表执行此操作因此虽然我可以指定 FieldNames 原始列但如果有一个自
Office.js 选择文本并将其替换为 ContentControl

我使用 Office js 有以下用例搜索一些文本body search 找到文本后可以多次出现迭代它们并将它们替换为具有不同内容的 ContentControl 搜索部分很简单但我不确定第二部分将 ContentControl
在scala中将两个元组组合成一个新的更大元组的干净方法？

假设我有以下元组 scala gt val t1 Tuple2 abcd efg t1 java lang String java lang String abcd efg scala gt val t2 Tuple2 1234 lmnop
ios - 资源文件大小超过 2GB 的企业应用程序

我正在开发一个用于企业分发的 ipad 应用程序仅由我公司人员使用它有很多视频文件图像 pdf等制作应用程序后 ipa的大小约为2 2 GB 我想知道该应用程序是否可以在所有 iPad 上有效运行或者这样做会很麻烦吗期待一些不会
无法在 keras 中的 BERT 之上添加 CRF 层以进行 NER

我在训练 NER 的 BERT CRF 模型时遇到了一个未知问题我使用 keras contrib 作为 CRF 模型这是导入的库 pip install transformers pip install git https www g
Flutter：如何在不复制整个文件的情况下调整/覆盖 Flutter 核心代码的属性？

这个问题与以下 StackOverflow 问题相关底部工作表的初始高度为屏幕的一半如果滚动则高度会增加到全屏 https stackoverflow com questions 52028107 bottom sheet with
nodejs - 如何比较 bcrypt 的两个哈希密码

您好在我搜索解决方案后我需要一些关于这个问题的帮助但我还没有找到我想将2个哈希密码与相同密码的bcrypt进行比较我该怎么做例如我有这 2 个哈希密码它们来自 bcrypt 中的相同密码 var password E Js
有没有办法保证Java中的接口扩展类？

假设我有以下情况 public abstract class Vehicle public void turnOn public interface Flier public void fly 有没有一种方法可以保证任何实现的类Flier还
如何将文件从旧文件夹结构移动到新文件夹结构？

我想修改现有的文件夹结构我有一个按以下方式组织的文件树 Client Name State Province City Order Number 但我对其进行了修改在订单号之前添加一个地址并用连字符分隔如下所示 Client Nam
变址寻址方式和隐式寻址方式

索引寻址模式通常用于访问数组因为数组是连续存储的我们有一个索引寄存器它在每次迭代中都会递增当添加到基地址时它会给出数组元素地址我不明白这种寻址模式的实际需要为什么我们不能通过直接寻址来做到这一点我们有了基地址每次访问的时候
document.createElement("script") 同步

是否可以调用 js同步文件然后立即使用
XmlAttribute/XmlText 不能用于编码复杂类型

我在下面的类中收到以下错误无法序列化 DataObjects Ingredient 类型的成员 Ingredient XmlAttribute XmlText 不能用于对复杂类型进行编码有什么想法吗 DataContract Seria
Exchange Web 服务创建会议请求工作示例

是否有关于如何使用 C 使用 EWS for Exchange 2007 创建会议请求的工作示例需要哪些属性我添加了一个 Web 服务引用并且可以连接以创建和发送各种项目但不断收到错误设置操作对属性无效关于响应消息它从来没有说
在 Visual Studio 2008 中更改字体大小和样式

Visual Studio 2008 中更改字体大小和字体类型的设置在哪里使用菜单Tools gt Options gt 内部环境 gt 字体和颜色
iFrame：如何使用 javascript 将服务器响应（HTML）直接显示到 iFrame 中？

我收到一个简单的服务器响应它是一个 html 文件我想在 iFrame 中显示相同的内容而不将该文件保存到我的工作区或计算机中我正在进行 ajax 调用如下所示 Ext Ajax request url url method PO
字符识别（OCR算法）[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我正在开发一个项目其中我必须开发 OCR 算法我必须从图像中读取文本然后将其转换为不同的语言所以我的第一个任务是从图像中获取文

字符识别（OCR算法）[关闭]

字符识别（OCR算法）[关闭] 的相关文章

随机推荐

热门标签