非常好的问题,涉及任何 OCR 系统的更高级功能。
首先,确保您没有忽略该功能,即使它可能存在于 OCR 系统上。确保不是以纯 TXT 格式查看结果测试,而是以某种支持富文本功能的查看器查看。 TXT 查看器(例如 Windows 上的记事本)通常不支持上标/下标字符,因此即使 OCR 为您提供正确的字符,您的查看器也可能会对其进行转换以显示它。如果您以编程方式访问文本结果,那么这就不是什么问题,因为您在直接访问时应该获得正确的下标字符值。请注意,观众必须支持它,您才能真正看到它。如果您消除了这种可能的后处理转换并确保 OCR 没有返回下标,那么它可能不支持它。
就像在这个文本框中一样,在您原来的问题中,您试图给我们一个上标字符示例,但该文本框不接受它,即使您可以从其他地方复制/粘贴它。
许多 OCR 会将下标视为任何其他普通字符(如果他们能看到的话)。您使用的 OCR 需要具备实际生成上标/下标的技术能力,而且很多都这样做,但它们往往是商业 OCR 系统,这并不奇怪。
在回复这封信之前我做了一个小测试用例。我生成了一个带有一些上标/下标示例的图像用于测试(当然 EMC2 是我想到的第一个示例:)。
您可以在这里找到我的测试图像:www.ocr-it.com/documents/superscript_subscript_test_page.tif http://www.ocr-it.com/documents/superscript_subscript_test_page.tif
并通过处理该图像OCR-IT OCR云2.0 API http://www.ocr-it.com使用所有默认设置,但导出为富文本格式,例如 MS Word .DOC。
您可以在这里找到我的测试图像:www.ocr-it.com/documents/superscript_subscript_test_page_result.doc http://www.ocr-it.com/documents/superscript_subscript_test_page_result.doc
另请注意:当您有兴趣提取上标/下标字符时,请特别注意图像质量,而不是典型文本。这些字符很小,您需要足够的细节和分辨率才能达到下降的 OCR 质量。即使以 300 dpi 扫描图像,有时也会因像素太少而出现小字符问题。如果您正在考虑移动和数码相机,这一点就变得更加重要。
披露:我的专长是为不同规模的公司实施内部 OCR 解决方案。我的公司是明智趋势 http://www.wisetrend.com。如果我需要进一步的帮助,请直接联系我。