经过两个下午的尝试,终于搞出来了;特记录下来备忘;
首先来看python代码识别图片,这一段较为简单;
from PIL import Image
import pytesseract
image = Image.open(r'hahah.jpg')
result = pytesseract.image_to_string(image, 'chi_sim')
print(result)
结果输出:图片内的文字信息;
过程中各种报错;
1、安装pytesseract过程;
pip install pytesseract
安装这个在pip中没问题,但是运行时候发现缺少tesseract库;
2、下载tesseract库;
地址:tesseract下载
我电脑是64的,下载了64bit版本;
3、安装tesseract;
这里我吧地址安装到了:E:\Program Files (x86)\Tesseract;(后边要用这个)
默认情况下安装在:C:\Program Files (x86)\ 文件下;
注意:安装时候不要选择语言包,下载慢死了,我是在这里踏了个坑啊,断了好几次NNDX;
4、下载语言包;
地址:语言包地址 chi_sim
这里我只单独下载了chi_sim包,在git上下载时候,可以下全套的,只要你愿意真的大;
然后把下载好后的包,放在安装目录下的tessdata目录内即可;eng和chi_sim足矣
E:\Program Files (x86)\Tesseract\tessdata (我的地址)
5、环境变量配置(重点);
系统变量:PATH 下增加 E:\Program Files (x86)\Tesseract
系统变量: TESSDATA_PREFIX 下增加 E:\Program Files (x86)\Tesseract\tessdata
第一次没配置语言包,又报错;哎郁闷;
6、上边操作完了,验证一下tesseract的安装情况;
进入管理控制台(cmd)
tesseract -v 查询版本
tesseract --list-langs 查询语言包清单
O了,基本东西安装完成;
7、修正tesseract默认地址描述;
这里又是一坑,还报错我差点崩溃了,还好吃了个橘子稳住了(报错码我就不上了);
进入pytesseract.py文件,修正tesseract_cmd地址;
tesseract_cmd = 'E:\Program Files (x86)\Tesseract\\tesseract.exe'
总算不报错了,但是尼玛出来的字又不对;
目前崩溃中,继续找方法!
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)