我正在编写一个用于 Tesseract OCR 训练图像的生成器。
为 Tesseract OCR 的新字体生成训练图像时,最佳值是:
- The DPI
- 字体大小(以磅为单位)
- 字体是否应该抗锯齿
- Should the bounding boxes fit snugly:
, or not:
第二个问题在这里得到了某种答案:http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3#Generate_Training_Images
无需使用多种尺寸进行训练。 10分就可以了。 (一个例外是非常小的文本。如果您想识别 x 高度小于约 15 像素的文本,您应该专门训练它或在尝试识别它们之前缩放图像。)
问题 1 和 3:根据经验,我已成功使用 300 dpi 图像/非抗锯齿字体。更具体地说,我在训练 pdf 上使用了以下转换参数,生成了令人满意的图像:
convert -density 300 -depth 8 [input].pdf -background white -flatten +matte -compress none -monochrome [output].tif
但后来我尝试向 Tesseract 添加点线字体,它仅在我使用 150 dpi 图像时才能正确检测到字符。所以,我认为没有通用的解决方案,这取决于您要添加的字体类型。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)