我想使用 Tesseract 从文档中提取大约 10-20 个关键字。该文档将包含所有英文字符/单词。我感兴趣的是“年龄:23”之类的东西。这里 Age 是我感兴趣的关键字,也想提取 23 (它的值)。
我想到的第一个方法是将整个页面提取为文本,然后在识别的文本中查找关键字。但是在训练超立方体方面,如果我知道关键字,是否有更好的方法,这可能会带来更好的准确性?
我或多或少意识到 Tesseract OCR 的局限性。尝试在限制范围内最大化。感谢您提供的所有专家建议。
Try bazaar https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#config-files-and-augmenting-with-user-dataTesseract 中的匹配模式。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)