使用 OCR 识别上标字符

2024-03-05

我已经开始了一个简单的项目,其中它必须获取包含带有上标的文本的图像,然后通过使用 OCR(目前我使用的是 tesseract)它必须识别上标字符 + 普通字符。

例如,我们有一个化学方程式,例如 Cl²,但是当我使用超立方体识别它时,它给出了 Cl2(全部在一行中)。

那么,这个问题的解决办法是什么呢?是否有其他 OCR API 能够读取上标?


非常好的问题,涉及任何 OCR 系统的更高级功能。

首先,确保您没有忽略该功能,即使它可能存在于 OCR 系统上。确保不是以纯 TXT 格式查看结果测试,而是以某种支持富文本功能的查看器查看。 TXT 查看器(例如 Windows 上的记事本)通常不支持上标/下标字符,因此即使 OCR 为您提供正确的字符,您的查看器也可能会对其进行转换以显示它。如果您以编程方式访问文本结果,那么这就不是什么问题,因为您在直接访问时应该获得正确的下标字符值。请注意,观众必须支持它,您才能真正看到它。如果您消除了这种可能的后处理转换并确保 OCR 没有返回下标,那么它可能不支持它。

就像在这个文本框中一样,在您原来的问题中,您试图给我们一个上标字符示例,但该文本框不接受它,即使您可以从其他地方复制/粘贴它。

许多 OCR 会将下标视为任何其他普通字符(如果他们能看到的话)。您使用的 OCR 需要具备实际生成上标/下标的技术能力,而且很多都这样做,但它们往往是商业 OCR 系统,这并不奇怪。

在回复这封信之前我做了一个小测试用例。我生成了一个带有一些上标/下标示例的图像用于测试(当然 EMC2 是我想到的第一个示例:)。
您可以在这里找到我的测试图像:www.ocr-it.com/documents/superscript_subscript_test_page.tif http://www.ocr-it.com/documents/superscript_subscript_test_page.tif

并通过处理该图像OCR-IT OCR云2.0 API http://www.ocr-it.com使用所有默认设置,但导出为富文本格式,例如 MS Word .DOC。

您可以在这里找到我的测试图像:www.ocr-it.com/documents/superscript_subscript_test_page_result.doc http://www.ocr-it.com/documents/superscript_subscript_test_page_result.doc

另请注意:当您有兴趣提取上标/下标字符时,请特别注意图像质量,而不是典型文本。这些字符很小,您需要足够的细节和分辨率才能达到下降的 OCR 质量。即使以 300 dpi 扫描图像,有时也会因像素太少而出现小字符问题。如果您正在考虑移动和数码相机,这一点就变得更加重要。

披露:我的专长是为不同规模的公司实施内部 OCR 解决方案。我的公司是明智趋势 http://www.wisetrend.com。如果我需要进一步的帮助,请直接联系我。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 OCR 识别上标字符 的相关文章

  • 提高识别率的图像预处理步骤

    我正在为我的项目使用 TessBaseAPI 制作一个简单的 OCR Android 应用程序 我已经完成了一些图像预处理步骤 例如二值化和图像增强 但他们的结果是50 到60 怎样才能提高识别率呢 我包括两个示例图像 http image
  • 超正方错误 - 图像太大

    对于大小为 5 MB 的图像 我从 tesseract 收到以下错误 Tesseract 开源 OCR 引擎 v3 01 与 Leptonica 第0页 图片太大 39667 56133 处理过程中出错 文件大小是否有限制 或者是否有参数可
  • tess4j 与 Spring mvc

    我已经尝试将 tess4j 作为独立的 java 程序 并且它可以正常工作并给出文本输出 现在我正在尝试创建一个 spring mvc web 项目 在 pom 中添加 tess4j 的依赖项 并且我已在我的项目中添加了 tess4j 源
  • pytesseract找不到指定的文件

    我的代码很简单 如下所示 import pytesseract from PIL import Image img Image open C temp foo jpg img load i pytesseract image to stri
  • 图像中的文本检测

    I am using below sample code for text detection in images not handwritten using coreml and vision https github com DrNeu
  • Python Tesseract 无法识别这种字体

    我有这个图像 我想使用 python 将其读取为字符串 我认为这并不难 我发现了 tesseract 然后是使用 tesseract 的 python 脚本的包装器 所以我开始阅读图像 效果很好 直到我尝试阅读这张图像 我是否需要训练它来读
  • 无法在 Mac 上安装 Tesseract-OCR

    我正在尝试使用 pytesseract 在 python 2 7 14 中制作 OCR 程序 当我运行我的代码时 from PIL import Image import pytesseract print pytesseract imag
  • 裁剪图像后,如何找到新的边界框坐标?

    这是我得到的收据图像 我使用 matplotlib 绘制了它 x1 y1 x2 y2 x3 y3 x4 y4 bbox coords 650 850 1040 850 1040 930 650 930 image cv2 imread IM
  • 在python中使用tesseract 3.02的C API与ctypes和cv2

    我正在尝试在 python 中将 Tesseract 3 02 与 ctypes 和 cv2 一起使用 Tesseract 提供了一组公开的 DLL C 风格 API 其中之一如下 TESS API void TESS CALL TessB
  • 在进行字符识别之前使用 OpenCV 进行图像预处理(超正方体)

    我正在尝试开发简单的 PC 应用程序用于车牌识别 Java OpenCV Tess4j 图像不是很好 进一步它们会很好 我想对超立方体图像进行预处理 但我被困在车牌检测 矩形检测 上 我的步骤 1 源图像 Mat img new Mat i
  • Tesseract OCR 将削减的 0 混淆为 8

    我已经在终点字体上训练了 tesseract 但无论如何 我都无法让它识别 0 我正在使用 jTessEditor 创建训练 tif 和框 即使在验证时 它也会将所有 0 读取为 8 我有什么遗漏的吗 下面是 0 的示例 它将其读作 8 我
  • 收据褪色部分可以恢复吗?

    我有一些包含一些扫描收据的文件 我需要使用 OCR 从中提取文本 由于收据上打印的文字在一段时间后会褪色 导致收据上的某些文字不清晰 影响OCR结果 褪色单词的一些示例 有什么方法可以恢复褪色的部分 以便提高 OCR 结果吗 我在OpenC
  • 用Python识别图像

    我对 OCR 识别和 Python 都有点陌生 我想要实现的是从 Python 脚本运行 Tesseract 以 识别 tif 中的某些特定数字 我以为我可以为 Tesseract 做一些培训 但我在 Google 和 SO 上没有找到任何
  • Tesseract 是否会忽略扫描文档中的任何非文本区域?

    我正在使用 Tesseract 但我不知道它是否忽略任何非文本区域并仅针对文本 我是否必须删除任何非文本区域作为预处理步骤以获得更好的输出 Tesseract 有一个非常好的算法来检测文本 但它最终会给出误报匹配 理想情况下 您应该在将图像
  • 如何去除给定图像中的噪声,使 ocr 输出完美?

    我已经对这个孟加拉文本图像进行了大津阈值处理 并使用 tesseract 进行 OCR 但输出非常糟糕 我应该应用什么预处理来消除噪音 我也想校正图像 因为它有轻微的倾斜 我的代码如下 import tesserocr from PIL i
  • 训练 tesseract 与 iPhone 一起使用

    我正在尝试在我的 iPhone 应用程序中使用 tesseract 2 04 只想检测数字 我在这里所做的首先是使用这篇文章交叉编译 tesseract 以生成 lib 文件http robertcarlsen net 2009 07 15
  • 如何从图像生成 tiff/box 文件以在 Windows 中训练 Tesseract

    我正在尝试在 Windows 中训练 Tesseract 为此我需要一对 tiff box 文件 并且我正在尝试使用 jTessBoxEditor 创建它 但它不接受图像作为输入 我也尝试过 boxFactory 但它无法正常运行 有谁知道
  • 从笔记本中提取文本

    我正在尝试从图像中提取手写文本 我使用 python 和 opencv 函数 例如 find contours 当我使用像这样的图像时 一切进展顺利 它工作得很好 因为我有一个简单的背景 但后来我用这张图片测试了它 由于背景中有笔记本的线条
  • 从超立方体图像中获取文本的确切位置

    使用 tesseract 中的 GetHOCRText 0 方法 我能够检索 html 中的文本 并在 webview 中呈现 html 时 我能够获取文本 但图像中文本的位置与输出不同 任何想法都非常有帮助 tesseract gt Se
  • Tesseract OCR 培训的替代方案?

    在过去的三个月里我一直在尝试训练 Tesseract通过识别我拥有的图像集合 由于真正的缺乏适当的文档 以及非常高的复杂性 我开始放弃 Tesseract 作为解决方案 我正在寻找一种相对无痛的替代方案对于训练 我不想在这里重新发现轮子 如

随机推荐