我有 55 000 个图像文件(JPG 和 TIFF 格式),它们是书中的图片。
每个页面的结构是这样的:
一些文字
---(水平线)---
a number
一些文字
---(水平线)---
另一个号码
一些文字
任何给定页面上可以有 0 到 4 条水平线。
我需要找到水平线下方的数字是多少。
但是,数字严格地相互遵循,从第一页的一个开始,所以为了找到数字,我不需要阅读它:我可以检测水平线的存在,这应该比尝试对页面进行 OCR 来检测数字。
该算法基本上是:
for each image
count horizontal lines
print image name, number of horizontal lines
next image
问题是:执行“计算水平线”部分的最佳图像库/语言是什么?
检测线路的最简单方法可能是使用霍夫变换 in OpenCV(它有许多语言的包装器)。
OpenCV 霍夫变换将检测图像中的所有线条并返回它们的角度和开始/停止坐标。您应该只保留角度接近水平且长度足够的那些。
O'Reilly 的学习 OpenCV详细解释了函数的输入和输出(第 156 页)。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)