是否有现有的商业或学术软件可以
- 来自多个 OCR 软件包(Abbyy FineReader、Adobe Acrobat Professional、ReadIris 等)的叠加结果
- 根据从多个来源积累的知识提供完全自动化的改进
- 允许在运行时使用额外的外部工具设置(词典、批量网络/本地语料库查找等)
?
Note: I already have in-house solutions to visualize results from single sources, so in case there is no such software obtainable, I would not mind developing my own : ) Inquiries for cooperation would then also be most welcome!
![screnshot](https://i.stack.imgur.com/AlSCj.jpg)
(source: sourceforge.net)
在多个 OCR 引擎之间使用投票的想法并不新鲜。问题是它并没有真正发挥作用。如果它们是本质上正交的简单分类器,那么您将结合他们的投票并改进结果,这可能会起作用。但它们都是非常复杂的软件,使用非常相似的一组众所周知的方法,几乎没有差异,但可能以不同的方式组合它们,有些实现更好,有些实现更差。
经验表明,当您结合多种 OCR 技术时,最佳决策规则是依赖最准确的一项技术的结果,而忽略其他技术。根据我的经验(我为 ABBYY 工作),ABBYY OCR 绝对是您提到的最准确的。
据我所知,使用投票的唯一原因是当您需要交叉检查“可疑”字符并将其发送到手动验证(如果要求 100% 准确度)时。使用这种方法可以增加要验证的字符数量,但会降低错过错误字符的可能性。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)