python文字识别训练_Python3.x：pytesseract识别率提高（样本训练）

2023-05-16

Python3.x：pytesseract识别率提高(样本训练)

1，下载并安装3.05版本的tesseract

2，如果你的训练素材是很多张非tif格式的图片，首先要做的事情就是将这么图片合并(个人觉得素材越多，基本每个字母和数字都覆盖了训练出来的识别率比较好)

下载这个工具：VietOCR.NET-3.3.zip

首先进行jpg,gif,bmp到tif的转换，这个用自带的画图就可以。然后使用VietOCR.NET-3.3进行多张 tif的merge。

3，Make Box Files。在orderNo.tif所在的目录下打开一个命令行，输入

C:\Program Files\Tesseract-OCR>tesseract.exe lang.jhy.exp8.TIF lang.jhy.exp8 batch.nochop makebox

4，使用jTessBoxEditor打开orderNo.tif文件，需要记住的是第2步生成的orderNo.box要和这个orderNo.tif文件同在一个目录下。逐个校正文字，后保存。

下载jTessBoxEditor工具进行每个自的纠正(注意有nextpage逐页进行纠正)

5，Run Tesseract for Training。输入命令：

C:\Program Files\Tesseract-OCR>tesseract.exe lang.jhy.exp8.TIF lang.jhy.exp8 nob

atch box.train

6，Compute the Character Set。输入命令：

C:\Program Files\Tesseract-OCR>unicharset_extractor.exe lang.jhy.exp8.box

Extracting unicharset from lang.jhy.exp8.box

Wrote unicharset file ./unicharset.

7，新建文件“font_properties”。如果是3.01版本，那么需要在目录下新建一个名字为“font_properties”的文件，并且输入文本:(这里的jhy就是lang.jhy.exp8的中间字段)

jhy 1 0 0 1 0

8，Clustering。输入命令：

C:\Program Files\Tesseract-OCR>cntraining.exe lang.jhy.exp8.tr

Reading lang.jhy.exp8.tr ...

Clustering ...

Writing normproto ...

9，此时，在目录下应该生成若干个文件了，把unicharset, inttemp, normproto, pfftable这几个文件加上前缀“selfverify.”。然后输入命令：

必须确定的是1、3、4、5、13行的数据不是-1，那么一个新的字典就算生成了。

此时目录下“selfverify.traineddata”的文件拷贝到tesseract程序目录下的“tessdata”目录。

以后就可以使用该该字典来识别了，例如：

tesseract.exe test.jpg out –l selfverify

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3

pytesseract

文字识别

识别率提高

python文字识别训练_Python3.x：pytesseract识别率提高（样本训练）的相关文章

尽管极其懒惰，但如何在 Python 中模拟 IMAP 服务器？

我很好奇是否有一种简单的方法来模拟 IMAP 服务器例如imaplib模块在Python中 without做很多工作是否有预先存在的解决方案理想情况下我可以连接到现有的 IMAP 服务器进行转储并让模拟服务器在真实的邮箱电子
使用Python开发Web应用程序

我一直在用 python 做一些工作但这都是针对独立应用程序的我很想知道 python 的任何分支是否支持 Web 开发有人还会建议一个好的教程或网站吗我可以从中学习一些使用 python 进行 Web 开发的基础知识既然大家都说
如何打印没有类型的defaultdict变量？

在下面的代码中 from collections import defaultdict confusion proba dict defaultdict float for i in xrange 10 confusion proba di
如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
Python 多处理示例不起作用

我正在尝试学习如何使用multiprocessing但我无法让它发挥作用这是代码文档 http docs python org 2 library multiprocessing html from multiprocessing imp
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
为 pandas 数据透视表中的每个值列定义 aggfunc

试图生成具有多个值列的数据透视表我知道我可以使用 aggfunc 按照我想要的方式聚合值但是如果我不想对两列求和或求平均值而是想要一列的总和同时求另一列的平均值该怎么办那么使用 pandas 可以做到这一点吗 df pd D
从列表中的数据框列中搜索部分字符串匹配 - Pandas - Python

我有一个清单 things A1 B2 C3 我有一个 pandas 数据框其中有一列包含用分号分隔的值某些行将包含与上面列表中的一项的匹配它不会是完美的匹配因为它在其中包含字符串的其他部分该列例如该列中的一行可能有哇这里
使用 Pycharm 在 Windows 下启动应用程序时出现 UnicodeDecodeError

问题是当我尝试启动应用程序 app py 时我收到以下错误 UnicodeDecodeError utf 8 编解码器无法解码位置 5 中的字节 0xb3 起始字节无效整个文件app py coding utf 8 from flask
NameError：名称“urllib”未定义”

CODE import networkx as net from urllib request import urlopen def read lj friends g name fetch the friend list from Liv
循环中断打破tqdm

下面的简单代码使用tqdm https github com tqdm tqdm在循环迭代时显示进度条 import tqdm for f in tqdm tqdm range 100000000 if f gt 100000000 4 b
Numpy 优化

我有一个根据条件分配值的函数我的数据集大小通常在 30 50k 范围内我不确定这是否是使用 numpy 的正确方法但是当数字超过 5k 时它会变得非常慢有没有更好的方法让它更快 import numpy as np N 5000
如何将 PIL 图像转换为 NumPy 数组？

如何转换 PILImage来回转换为 NumPy 数组这样我就可以比 PIL 进行更快的像素级转换PixelAccess允许我可以通过以下方式将其转换为 NumPy 数组 pic Image open foo jpg pix numpy
为美国东部以外地区的 Cloudwatch 警报发送短信？

AWS 似乎没有为美国东部以外的 SNS 主题订阅者提供 SMS 作为协议我想连接我的 CloudWatch 警报并在发生故障时接收短信但无法将其发送到 SMS YES 经过一番挖掘后我能够让它发挥作用它比仅仅选择一个主题或输入闹钟
VSCode：调试配置中的 Python 路径无效

对 Python 和 VSCode 以及 stackoverflow 非常陌生直到最近我已经使用了大约 3 个月一切都很好当尝试在调试器中运行任何基本的 Python 程序时弹出窗口The Python path in your
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
如何使用google colab在jupyter笔记本中显示GIF？

我正在使用 google colab 想嵌入一个 gif 有谁知道如何做到这一点我正在使用下面的代码它并没有在笔记本中为 gif 制作动画我希望笔记本是交互式的这样人们就可以看到代码的动画效果而无需运行它我发现很多方法在 Goo
在 Python 类中动态定义实例字段

我是 Python 新手主要从事 Java 编程我目前正在思考Python中的类是如何实例化的我明白那个 init 就像Java中的构造函数然而有时 python 类没有 init 方法在这种情况下我假设有一个默认构造函数就像
Python - 字典和列表相交

给定以下数据结构找出这两种数据结构共有的交集键的最有效方法是什么 dict1 2A 3A 4B list1 2A 4B Expected output 2A 4B 如果这也能产生更快的输出我可以将列表不是 dict1 组织到任何其他数
Pandas 与 Numpy 数据帧

看这几行代码 df2 df copy df2 1 df 1 df 1 values 1 df2 ix 0 0 我们的教练说我们需要使用 values属性来访问底层的 numpy 数组否则我们的代码将无法工作我知道 pandas Data

随机推荐

django搭建博客二之初始化工程

该系列文章 django搭建博客一前言 django搭建博客二之初始化工程 django搭建博客三初始化应用 django搭建博客四页面布局和自定义异常视图 django搭建博客五系统模型建立与注册 django搭建博客六邮件模板和邮件工具
远程桌面输入用户名密码后闪断_NoMachine远程桌面的安装-deepin

nomachine采用nx协议进行传输 1 ubuntu下的NoMachine的安装 https www nomachine com download 选择NoMachine for Linux进行下载下载完成后 xff0c 用如下命令安
python 等号报错_python提示Syntax Error报错解决教程

想必大家敲代码时候 xff0c 经常能碰到报错提示吧 xff0c 这是为什么呢 xff1f 根据常见的报错内容 xff0c 小编整理了常见错误 xff0c 一起来看下吧一 SyntaxError 语法错误 1 引号没有成对出现报错信息
能否获取屏幕某区域文字_树洞 OCR开源免费、简单实用的文字识别

正文来啦 xffe3 xffe3 日常办公中 xff0c 总会有打字录入的需求如果给你一份扫描件或者图书等 xff0c 让你将文字录入到文档中 xff0c 你会选择怎样做呢 xff1f 这时候可以试着使用 OCR 技术 xff0c OCR
苹果系统备份文件服务器地址,苹果备份文件在哪里能找到？默认路径在这儿（不知道的进来看看）...

我们现在有很多人都在使用苹果的产品 xff0c 我们都知道苹果产品链接电脑的时候都会使用到iTunes 那么对于备份在iTunes中的文件 xff0c 我们应该怎么找 xff1f 一起来看看吧原创文章 xff1a www pp00 com
python打包成exe_Python打包exe(32/64位)Nuitka再下一城

老规矩先上视频 xff0c 从64和32的环境安装到调试和文件夹设置本文针对的那些Pyinstaller下打包失败打包文件很大或者启动很慢的exe xff0c 希望你能从本文学到一些东西 xff0c 开开心心写python xff0c
Anaconda mportError: No module named ‘PIL‘

问题描述 xff1a 在Anaconda创建的虚拟环境中运行程序 xff0c 出现 xff1a 报错ImportError No module named 39 PIL 39 解决方案 xff1a 有的时候在虚拟环境中运行 pip inst
python列表切片得到的是列表还是字符串_Python切片列表字符串如何实现切换

1 怎么实现字符串变为list 使用split 把字符串拆分再存入数组 xff1b 例子 input 61 34 ni si shi 34 output 61 input split 34 34 print output 输出应为 xff1
python row column_row_ dimensions的RowDimension对象和column_dimensions的ColumnDimension对象。...

上一篇文章设置sheet行高和列宽的时候用过row dimensions 和 column dimensions xff0c 他们是sheet对象的两个属性此外 xff0c row dimensions包含RowDimension对象 x
linux lsnrctl命令不存在,linux – oracle lsnrctl TNS-12545：连接失败,因为目标主机或对象不存在...

我正在尝试连接到我的oracle数据库我无法让听众开始这是我尝试过的 lsnrctl start LSNRCTL for Linux Version 10 2 0 4 0 Production on 20 JAN 2012 08 19
jqprint 监听打印完成_路由器接入usb打印机制作无线打印机服务器

0 目标及读者目标 xff1a 将一台usb打印机接入路由器优酷路由宝YK L1 的usb口上 xff0c 刷入老毛子固件后 xff0c 提供无线打印服务器读者 xff1a 有一定IT基础的人员 1 准备工作 1 1 硬件环境 PC或
mysql join 主表唯一_mysql left join 右表数据不唯一的情况解决方法

如果B表符合条件的记录数大于1条 xff0c 就会出现1 n的情况 xff0c 这样left join后的结果 xff0c 记录数会多于A表的记录数例如 xff1a A与B表的结构如下 xff0c A记录会员信息 xff0c B记录会员每
ax200网卡黑苹果驱动_Alienware 17 R5黑苹果安装记录独显驱动

安装外星人alienware 17 r5笔记本黑苹果macos 10 13 6记录 xff0c 只有独显GTX 1060 先看配置 xff1a CPU为i7 8750H 硬盘256G的东芝固态硬盘 xff0c 16G内存 xff0c GTX
ax200无线网卡黑苹果_联想小新15 2020锐龙版更换AX200无线网卡

本文为原创内容 xff0c 除潘七七的日常各平台账号及微博 FU 视觉互联外 xff0c 严禁转载目前联想锐龙版小新系列原装无线网卡都是瑞昱螃蟹的8822CE xff0c 这款网卡会导致蓝牙和wifi冲突 xff0c 七七童鞋倒
LINUX系统无线网频繁断开_无线网桥如何避开各种干扰

无线网桥在使用中最怕遇到干扰 xff0c 不管什么干扰都会大大影响其信号强度和传输距离所以避开干扰是必须的那么有哪些常见的干扰 xff1f 如何避开 xff1f 无线网桥的干扰一般包括2类 xff1a 外部干扰和内部干扰外部干扰指的是
优酷路由宝文件服务器,优酷路由宝L1刷breed加刷高恪路由,最新可用包含工具及所有文件2019年10月13...

本教程是自己刷闲置优酷路由宝L1走了很多弯路和不成功最后一次次尝试找到的可行方法 xff0c 汇总整理完整可用包含所有文件的刷机教程希望大家喜欢技术交流QQ183815718 Breed 是必备 xff0c 但是要刷 Breed 就得先刷
免费天气接口php,基于聚合数据的免费天气预报接口查询-PHP版

1 开通接口天气预报接口服务使用的聚合数据提供的免费接口 xff0c 每天可以100次免费调用可以通过https www juhe cn docs api id 73注册及开通 2 通过PHP发起城市天气查询 39 苏州 39 要查询的
备份MySQL数据库的另类方法

使用MySQL进行数据库备份 xff0c 有很正规的数据库备份方法 xff0c 同其他的数据库服务器有相同的概念 xff0c 但有没有想过 xff0c MySQL会有更简捷的使用文件目录的备份方法 xff0c 而且又快有好一数据备份捷径
docker 修改mtu

创建网络修改mtu docker network create opt com docker network driver mtu 61 950 wangluo 然后docker加入这个网络就行
python文字识别训练_Python3.x：pytesseract识别率提高（样本训练）

Python3 x xff1a pytesseract识别率提高样本训练 1 xff0c 下载并安装3 05版本的tesseract 2 xff0c 如果你的训练素材是很多张非tif格式的图片 xff0c 首先要做的事情就是将这么图片合并

python文字识别 训练_Python3.x：pytesseract识别率提高（样本训练）

python文字识别 训练_Python3.x：pytesseract识别率提高（样本训练） 的相关文章

随机推荐

热门标签

python文字识别训练_Python3.x：pytesseract识别率提高（样本训练）

python文字识别训练_Python3.x：pytesseract识别率提高（样本训练）的相关文章