字符识别(OCR算法)[关闭]

2024-01-25

我正在开发一个项目,其中我必须开发 OCR 算法(我必须从图像中读取文本,然后将其转换为不同的语言)。所以我的第一个任务是从图像中获取文本。

完成第一个任务的步骤。

  1. 从给定源加载任何图像格式(bmp、jpg、png)。然后将图像转换为灰度并使用阈值(Otsu算法)将其二值化。 //已完成(如何从输出图像中去除噪声???)

Results

  1. 检测图像特征,如分辨率和反转。这样我们最终就可以将其转换为拉直的图像以进行进一步的处理。 (完成了图像旋转的代码,但无法检测我们必须旋转图像的图像角度,因此仍在研究角度检测部分)

  2. 线路检测和删除。需要此步骤来改进页面布局分析、对下划线文本实现更好的识别质量、检测表格等(决定在末尾完成该部分)

  3. 页面布局分析。在此步骤中,我尝试识别图像中存在的文本区域。因此,只有该部分用于识别,而该区域的其余部分被忽略。

  4. 检测文本行和单词。这里我们还需要注意不同的字体大小和单词之间的小间距。

  5. 字符识别。这是OCR的主要算法;每个字符的图像必须转换为适当的字符代码。有时,该算法会为不确定的图像生成多个字符代码。例如,识别“I”字符的图像可以产生“I”、“|”。 “1”、“l”代码和最终的字符代码将在稍后选择。

  6. 将结果保存为选定的输出格式,例如可搜索的 PDF、DOC、RTF、TXT。保存原始页面布局很重要:栏目、字体、颜色、图片、背景等。

所以我在第 6 部分中需要帮助。我已经完成了行检测部分(从包含 n 行的段落中获取 n 个图像),但卡在下一部分中获取单词和字符识别。如果您知道与 OCR 和字符识别部分相关的良好链接,请发布这里。

对于字符识别,我正在考虑使用 asprise(Java 库)http://asprise.com/product/ocr/index.php?lang=java http://asprise.com/product/ocr/index.php?lang=java


检测旋转角度, 使用霍夫变换 http://en.wikipedia.org/wiki/Hough_transform.

For 降噪,将任何没有邻居(北、东、南或西)的像素替换为相同颜色(相似的颜色,使用容差阈值),以及邻居的平均值。

搜索垂直白色间隙布局检测。沿着垂直间隙切片。对于每个切片,现在搜索水平间隙并切片。如果切片具有相同(相似)的高度,则处于线水平。否则重复垂直/水平切片,直到只剩下线条。最后一步再次是垂直切片,为您提供单个字符(或在某些情况下为连字)。长而窄或短而宽的切片都是线。

将字符切片与字符库进行比较。如果性能不是主要考虑的问题,请尝试在不同的字体库中查找字符,直到可以识别所使用的字体。然后坚持使用该字体字符识别.

在原始图像中,将每个字符替换为背景颜色,背景颜色是通过为字符的每个像素插入不属于字符的像素来确定的。这给你背景图,如果有的话。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

字符识别(OCR算法)[关闭] 的相关文章

  • 有人可以帮我在 android 中使用 ocr 名片扫描仪吗? [关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
  • 用于 OCR 的 Python OpenCV 倾斜校正

    目前 我正在开发一个 OCR 项目 需要读取标签上的文本 请参见下面的示例图片 我遇到了图像倾斜的问题 我需要帮助修复图像倾斜 以便文本是水平的而不是成角度的 目前 我正在使用的过程尝试从给定范围 下面包含代码 对不同角度进行评分 但这种方
  • java中pdf解析为文本

    我有一个阿拉伯语 PDF 我想使用 Java 将其解析为文本文档 我已经尝试了很多次 英语单词解析成功 但阿拉伯语单词解析失败 谁能推荐一个可以正确转换阿拉伯语单词的解决方案 我想到了几个图书馆 阿帕奇蒂卡 http tika apache
  • 如何在 OCR 中区分斜线零和八 (0->8)

    我正在为我的 Android 应用程序使用 ML Kit for Firebase ReCalc 收据计算器 https play google com store apps details id info trekto receipts
  • OCR 处理前的图像预处理

    我当前的项目涉及将 pdf 中的文本转录为文本文件 我首先尝试将图像文件直接放入 OCR 程序 tesseract 中 但效果不佳 原始图像文件基本上是旧报纸 并且有一些背景噪音 我确信 tesseract 存在问题 因此 我尝试在将图像输
  • 通过 pytesseract 和 PIL 提高文本识别的准确性

    所以我试图从图像中提取文本 由于图像的质量和尺寸不好 因此给出的结果不准确 我尝试了一些 PIL 的增强功能和其他功能 但这只会恶化图像质量 有人可以建议对图像进行一些增强以获得更好的结果 一些图像示例 在提供的图像示例中 文本的视觉质量非
  • 使用 Google App Script 从 google 驱动器中进行 OCR 图像

    我已经实现了以下脚本 使用图像 URL 对单个和多个图像进行 OCR function doOCRALL var selected SpreadsheetApp getActiveSheet getActiveRange getValues
  • OCR:图像转文本?

    在标记为复制或重复问题之前 请先阅读整个问题 我目前能做的如下 获取图像并裁剪 OCR 所需的部分 使用处理图像tesseract and leptonica 当应用的文档被裁剪成块 即每个图像 1 个字符 时 它提供 96 的准确度 如果
  • Pytesseract 对于实时 OCR 来说非常慢,有什么方法可以优化我的代码吗?

    我正在尝试使用 python 创建实时 OCRmss and pytesseract 到目前为止 我已经能够捕获整个屏幕 其 FPS 稳定为 30 如果我想捕获大约 500x500 的较小区域 我已经能够获得 100 FPS 然而 一旦我包
  • c# OCR无法识别数字(tesseract 2)

    I m trying to extract digits from the following 它失败了 我得到了 作为回报 我正在使用 google 的 tesseract 2 使用 C 开源 c 包装器 现在我想知道 这个图像是否太糟糕
  • 使用 OpenCV 对 Tesseract OCR 进行图像预处理

    我正在尝试开发一个应用程序 它使用 Tesseract 来识别手机摄像头拍摄的文档中的文本 我使用 OpenCV 来预处理图像以实现更好的识别 应用高斯模糊和阈值方法进行二值化 但结果非常糟糕 Here https s6 postimg c
  • 图像中的文本检测

    I am using below sample code for text detection in images not handwritten using coreml and vision https github com DrNeu
  • 断言失败 - 训练 Tesseract

    我正在尝试使用 Serak Tesseract Trainer 训练 tesseract https code google com p serak tesseract trainer https code google com p ser
  • OCR 解析获取复选框或单选按钮值

    I need to parse OCR image file and get all texts and checkbox values How to get Checkbox or Radio Button value from OCR
  • 用于屏幕文本的 OCR(光学字符识别)

    我正在尝试创建一个软件 通过捕获屏幕截图来自动化 PC 然后使用 OCR 光学字符识别 来查找要单击的特定按钮 例如 我已经有了鼠标和键盘控制部分 但现在 我需要 OCR 来处理屏幕截图 我发现 Tesseract OCR 似乎不能很好地处
  • 从图像中识别数字

    我正在尝试编写一个应用程序来查找图像内的数字并将它们相加 如何识别图像中的书写数字 图像中有很多框 我需要获取左侧的数字并将它们相加得出总数 我怎样才能实现这个目标 编辑 我对图像进行了 java tesseract ocr 但没有得到任何
  • Tesseract 是否会忽略扫描文档中的任何非文本区域?

    我正在使用 Tesseract 但我不知道它是否忽略任何非文本区域并仅针对文本 我是否必须删除任何非文本区域作为预处理步骤以获得更好的输出 Tesseract 有一个非常好的算法来检测文本 但它最终会给出误报匹配 理想情况下 您应该在将图像
  • 以编程方式识别 PDF 文件中的扫描文本 [关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我有一个 PDF 文件 其中包含我们需要导入数据库的数据 这些文件似乎是打印的字母数字文本的 pdf
  • 训练 tesseract 与 iPhone 一起使用

    我正在尝试在我的 iPhone 应用程序中使用 tesseract 2 04 只想检测数字 我在这里所做的首先是使用这篇文章交叉编译 tesseract 以生成 lib 文件http robertcarlsen net 2009 07 15
  • 来自 Google Vision API OCR 的响应 400,带有指定图像的 base64 字符串

    我读了如何使用 Google Vision API 对 Base64 编码图像进行文本检测 https stackoverflow com questions 43094048 how to use the google vision ap

随机推荐