我尝试使用tess-two,适用于 Android 的 Tesseract Tools 的一个分支。我想打开hocr
超正方体中的输出,由此link,我尝试设置变量tessedit_create_hocr
确实如此,但我在输出中看不到 hocr。这是我的尝试:
baseApi.init(FileUtil.getAppFolder(), "eng", TessBaseAPI.OEM_TESSERACT_CUBE_COMBINED);
baseApi.setVariable("tessedit_create_hocr", "1")
baseApi.setImage(bitmap);
String recognizedText = baseApi.getUTF8Text();
有人告诉hocr
输出应该位于配置文件夹或包含图像的文件夹中,但我没有看到任何内容。我不知道如何配置 hocr 输出的文件名和位置。
另一件事:有没有办法将配置文件应用到 Android 版 Tesseract Tools 中?我将配置文件放入tessdata/config 文件夹,但什么也没有发生。怎样说tesseract
应该读取这些配置文件吗?看来他们没有足够的 Android 文档。
Update: 谢谢@nguyenq
,现在我可以得到HOCR
数据。这是我的尝试:
jstring Java_com_googlecode_tesseract_android_TessBaseAPI_nativeGetHOCRText(JNIEnv *env,
jobject thiz, jint page) {
native_data_t *nat = get_native_data(env, thiz);
char *text = nat->api.GetHOCRText(page);
jstring result = env->NewStringUTF(text);
free(text);
return result;
}
显然,tess-two
并没有实现所有的TessBaseAPI
因为它不包括对本机的支持GetHOCRText
方法。您可能必须自己扩展包装器才能访问您需要的功能。
配置文件用于命令行执行。或者,您可以通过公开的 API 方法设置必要的变量setVariable
.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)