Tesseract-OCR-v5.0中文识别,训练自定义字库,提高图片的识别效果

2023-05-16

1，下载安装Tesseract-OCR 安装，链接地址Index of /tesseract

2，安装成功 tesseract -v

注意：安装后，要添加系统环境变量

3，cmd指定目录到 cd C:\Work\BlogsTest\TestPic，要识别图片的文件夹识别：tesseract test.png result -l chi_sim

识别成功的效果，result.txt文件会自动生成

要注意：Tesseract-OCR的安装目录要包含识别中文的字符集chi_sim.traineddata，可以在GitHub下载GitHub - tesseract-ocr/tessdata: Trained models with support for legacy and LSTM OCR engine

4，可见第3步的识别效果不是很好，想到通过训练自定义字库,提高图片的识别效果

（0）下载安装jTessBoxEditor，VietOCR - Browse /jTessBoxEditor at SourceForge.net

注意要安装JavaRuntime

（1）打开jTessBoxEditor，选择Tools->Merge TIFF，进入训练样本所在文件夹，选中要参与训练的样本图片：

（2）点击 “打开” 后弹出保存对话框，选择保存在当前路径下，文件命名为 “qq66.test.exp0.tif” ，格式只有一种 “TIFF” 可选。

tif文面命名格式[lang].[fontname].exp[num].tif
lang是语言，fontname是字体，num为自定义数字。

比如我们要训练自定义字库 qq66，字体名test，那么我们把图片文件命名为 qq66.test.exp0.tif

（3）使用tesseract生成.box文件

tesseract qq66.test.exp0.tif qq66.test.exp0 -l chi_sim --psm 6 batch.nochop makebox

注意：--psm的语法，数字对应不同的页面分割模式。

（4）使用jTessBoxEditor矫正.box文件的错误

打开后矫正后，点击 save

（5）生成font_properties文件：（该文件没有后缀名）

执行命令，执行完之后，会在当前目录生成font_properties文件
echo test 0 0 0 0 0 >font_properties

也可以手工新建一个名为font_properties的文本文件，输入内容 “test 0 0 0 0 0” 表示字体test的粗体、倾斜等共计5个属性。这里的“test”必须与“qq66.test.exp0.box”中的“test”名称一致。

（6）使用tesseract生成.tr训练文件

执行下面命令，执行完之后，会在当前目录生成qq66.test.exp0.tr文件。

tesseract qq66.test.exp0.tif qq66.test.exp0 nobatch box.train

（7）生成字符集文件：

执行下面命令：执行完之后会在当前目录生成一个名为“unicharset”的文件。

unicharset_extractor qq66.test.exp0.box

（8）生成shape文件：

执行下面命令，执行完之后，会生成 shapetable 和 zwp.unicharset 两个文件。

shapeclustering -F font_properties -U unicharset -O qq66.unicharset qq66.test.exp0.tr

（8）生成聚字符特征文件

执行下面命令，会生成 inttemp、pffmtable、shapetable和zwp.unicharset四个文件。

mftraining -F font_properties -U unicharset -O qq66.unicharset qq66.test.exp0.tr

（9）生成字符正常化特征文件

执行下面命令，会生成 normproto 文件。

cntraining qq66.test.exp0.tr

（10）文件重命名
重新命名inttemp、pffmtable、shapetable和normproto这四个文件的名字为[lang].xxx。

这里修改为qq66.inttemp、qq66.pffmtable、qq66.shapetable和qq66.normproto

（11）合并训练文件
执行下面命令，会生成qq66.traineddata文件。

combine_tessdata qq66.

最后文件目录

5，用新生成的qq66.traineddata字符集，重新识别身份证

6，可以同时选择多个不同的样本生成box文件

7，在原有训练数据的基础上，加入新的字符训练信息

经研究找到实用合并方法（红色部分为示例，实际应为你自己生成的文件名）：

在新的训练数据生成.box 和.tr文件后，

生成字符集 unicharset_extractor add.font.exp0.box new.font.exp0.box

合并训练数据(.tr)

mftraining -F font_properties -U unicharset -O added.unicharset add.font.exp0.tr new.font.exp0.tr

聚合所有的tr文件：

cntraining add.font.exp0.tr new.font.exp0.tr

8，设置图片分割模式

Page segmentation modes:

0 = Orientation and script detection (OSD) only.
1 = Automatic page segmentation with OSD.
2 = Automatic page segmentation, but no OSD, or OCR
3 = Fully automatic page segmentation, but no OSD. (Default)
4 = Assume a single column of text of variable sizes.
5 = Assume a single uniform block of vertically aligned text.
6 = Assume a single uniform block of text.
7 = Treat the image as a single text line.
8 = Treat the image as a single word.
9 = Treat the image as a single word in a circle.
10 = Treat the image as a single character.

例如：

tesseract test.png result -l chi_sim -psm 7 nobatch

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Tesseract-OCR-v5.0中文识别,训练自定义字库,提高图片的识别效果的相关文章

Windows 7 OCR API

我一直在审查 Office 2007 MODI OCR 的替代品 OneNote 2010 解决方案的质量结果低于 2007 我注意到一旦您安装了可选 tiff 过滤器 http technet microsoft com en us
c# OCR无法识别数字（tesseract 2）

I m trying to extract digits from the following 它失败了我得到了作为回报我正在使用 google 的 tesseract 2 使用 C 开源 c 包装器现在我想知道这个图像是否太糟糕
在Python中从pdf中提取印地语编写的文本[重复]

这个问题在这里已经有答案了我想从 pdf 文档中提取印地文输入的文本我已附上示例页面的图像 https i stack imgur com UkT86 jpg我正在处理我尝试使用 pdfminer 从中获取文本但文本是乱码可能是由
图像中的文本检测

I am using below sample code for text detection in images not handwritten using coreml and vision https github com DrNeu
pytesseract 错误 Windows 错误 [错误 2]

您好我正在尝试使用 python 库 pytesseract 从图像中提取文本请查找代码 from PIL import Image from pytesseract import image to string print image
Google Vision API 文本识别器无法正常工作

我使用 Google Vision API 来读取报纸等任何物体上的文本或墙上的文本我已经尝试过来自 Google 开发者网站的相同示例但我的文本识别器总是返回 falseIsOperational功能我在 Blackberry ke
OCR 扑克牌 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我决定做一个有趣的项目我想将扑克牌的图像作为输入并返回其等级和花色我认为我只需要查看左上角因为那里包含了所有信息它应该是稳健的
用于屏幕文本的 OCR（光学字符识别）

我正在尝试创建一个软件通过捕获屏幕截图来自动化 PC 然后使用 OCR 光学字符识别来查找要单击的特定按钮例如我已经有了鼠标和键盘控制部分但现在我需要 OCR 来处理屏幕截图我发现 Tesseract OCR 似乎不能很好地处
在python中使用tesseract 3.02的C API与ctypes和cv2

我正在尝试在 python 中将 Tesseract 3 02 与 ctypes 和 cv2 一起使用 Tesseract 提供了一组公开的 DLL C 风格 API 其中之一如下 TESS API void TESS CALL TessB
在进行字符识别之前使用 OpenCV 进行图像预处理（超正方体）

我正在尝试开发简单的 PC 应用程序用于车牌识别 Java OpenCV Tess4j 图像不是很好进一步它们会很好我想对超立方体图像进行预处理但我被困在车牌检测矩形检测上我的步骤 1 源图像 Mat img new Mat i
如何提取图像中的表格

我想从图像中提取表格这个 python 模块https pypi org project ExtractTable https pypi org project ExtractTable 与他们的网站https www extractta
在 google Vision OCR 中被识别为单个单词的特殊字符？

我试图让谷歌视觉 OCR 正则表达式可搜索我已经完成了它并且当文档仅包含英文字符时效果很好但当有其他语言的文本时它就会失败发生这种情况是因为我在谷歌视觉单词组件中只有英文字符如下所示 VISION API WORD COUNTE
用Python识别图像

我对 OCR 识别和 Python 都有点陌生我想要实现的是从 Python 脚本运行 Tesseract 以识别 tif 中的某些特定数字我以为我可以为 Tesseract 做一些培训但我在 Google 和 SO 上没有找到任何
提高 pytesseract 从图像中正确识别文本的能力

我正在尝试使用读取验证码pytesseract模块大多数时候它都能提供准确的文本但并非总是如此这是读取图像操作图像以及从图像中提取文本的代码 import cv2 import numpy as np import pytesser
如何从图像生成 tiff/box 文件以在 Windows 中训练 Tesseract

我正在尝试在 Windows 中训练 Tesseract 为此我需要一对 tiff box 文件并且我正在尝试使用 jTessBoxEditor 创建它但它不接受图像作为输入我也尝试过 boxFactory 但它无法正常运行有谁知道
来自 Google Vision API OCR 的响应 400，带有指定图像的 base64 字符串

我读了如何使用 Google Vision API 对 Base64 编码图像进行文本检测 https stackoverflow com questions 43094048 how to use the google vision ap
无法将 Tesseract OCR 模块添加到 Android Studio

我按照此处找到的分步指南进行操作 https www codeproject com Articles 840623 Android Character Recognition https www codeproject com Artic
未应用 Tesseract 用户模式

I want to do OCR on this image This is pre define format ie first five will characters then next four will be digits and
超立方体错误。非法的最小或最大规格

尝试从这里运行示例代码http tess4j sourceforge net codesample html http tess4j sourceforge net codesample html我收到一条错误消息 Error Illega
从超立方体图像中获取文本的确切位置

使用 tesseract 中的 GetHOCRText 0 方法我能够检索 html 中的文本并在 webview 中呈现 html 时我能够获取文本但图像中文本的位置与输出不同任何想法都非常有帮助 tesseract gt Se

随机推荐

获取本地时间的函数

span class token keyword function span span class token function getTime span span class token punctuation span span cla
Debian-8.7.1 系统安装

Debian 8 7 1 系统安装本人使用Linux操作系统多年 xff0c 主要是centos xff0c 但从来没用过debian系统 xff0c 今天准备安装一个系统看看 xff0c 网上查资料 xff0c 大部都是debian老版
MySQL 8.0 忘记密码/修改root密码

1 以管理员身份打开cmd窗口 xff0c 定位到MySQL安装目录下的bin目录 xff0c 输入net stop mysql 回车 xff0c 关闭MySQL数据库 2 输入mysqld console skip grant table
python使用ElementTree处理xml容易犯错的点&美化xml

python使用ElementTree处理xml容易犯错的点 amp 美化xml 引言代码环境相关先上代码引言目前因为需要写一个tool处理xml文件 xff0c 对于面向浏览器编程的我来说 xff0c 迅速打开chrome开始搜索关键
java截取视频的三种方式

String cut 61 34 ffmpeg ss 34 43 startTime 43 34 i 34 43 videoPath 43 34 t 34 43 String valueOf seconds 43 34 c v copy c
有关C语言中字符串入栈的理解

C语言中字符串的入栈写在前面对于C语言中变量入栈的顺序实际上需要具体情况具体分析 xff0c 不同操作系统下的编译器可能对此有不同的解释 xff0c 即使对于同一个C的编译器而言 xff0c 参数设定的不同也会导致编译器调整局部变量的入
win10 安装MySQL 无管理员权限

1 找到下载的安装文件 xff0c 按住Shift键 xff0c 同时在安装文件上点击鼠标右键 xff0c 选择复制为路径 2 打开C Windows System32 xff0c 找打cmd exe xff0c 点击右键选择以管理员方式运
Bootstrap broker localhost:9092 (id: -1 rack: null) disconnected

现象描述 xff1a 代码连接本地kafka没有问题能监听到监听的topic xff0c 可获取通道中的所有topic 将kafka放到服务器上 xff0c 本地程序启动报异常 xff0c 可获取kafka中所有的topic xff0c
java 视频转换 avi 转 MP4

添加jar 包 lt dependency gt lt groupId gt ws schild lt groupId gt lt artifactId gt jave core lt artifactId gt lt version gt
前后端分离，SpringBoot。WEBSocket后台报警页面提示

前端JS var websocket 61 null 判断当前浏览器是否支持WebSocket 主要此处要更换为自己的地址 if 39 WebSocket 39 in window websocket 61 new WebSocket 34
MYSQL 依据字段值分段统计

SELECT sum mun max from select ceil distance 500 1 500 as min ceil distance 500 500 as max count mun from tablename wher
java8转换数组。找到最接近指定数据

List lt String gt lsstr 61 Arrays asList arear 数组转list List lt String gt listWithoutNulls 61 lsstr stream filter Objects
nested exception is java.lang.IllegalStat eException:duplicate spring bean

nested exception is java lang IllegalStat eException duplicate spring bean 多次注入bean信息 xff0c 经过长时间排查 xff0c 我是将项目进行整合 xff0
Artifact xxx:war exploded: Error during artifact deployment.

Artifact xxx war exploded Error during artifact deployment 出现这个问题 xff0c 在网上查资料 xff0c 1 说是idear 配置的tomcat Artifact 添加的Var
zTree取消父子关联

对于zTree父子关联关系的设置 xff0c zTree里面自带了一个chkboxType函数取消父子关联 xff0c 只需要在初始化树的时候 xff0c 在settings里面设置 xff1a check enable true chk
解决Linux系统下，出现“不在sudoers文件中，此事将被报告”的问题

使用sudo mkdir software xff0c 提示XXX 不在 sudoers 文件中此事将被报告是因为当前操作用户的权限不足 xff0c 而root用户只有在权限分配及系统设置时才会使用 xff0c 而root用户的密码也不
结构体数组的引用方式

期末复习时发现答案中有p i a的用法 xff0c 遂进行了一番测试 xff0c 所获心得记载如下引用结构体指针数组时 xff0c p i 61 61 A i 61 61 p 43 i 注意加括号 xff0c 优先级较低具体为 xff1
Hadoop安装和配置

1 安装Hadoop 注意 xff1a 安装JDK类似 xff0c 解压后配置环境变量 1 0 Hadoop下载地址 xff1a https archive apache org dist hadoop common hadoop 2 7
机器学习（1)机器学习的范围

机器学习的范围包括但是不局限与如下 xff1a 机器学习跟模式识别 xff0c 统计学习 xff0c 数据挖掘 xff0c 计算机视觉 xff0c 语音识别 xff0c 自然语言处理等领域有着很深的联系从范围上来说 xff0c 机器学习跟
Tesseract-OCR-v5.0中文识别,训练自定义字库,提高图片的识别效果

1 xff0c 下载安装Tesseract OCR 安装 xff0c 链接地址Index of tesseract 2 xff0c 安装成功 tesseract v 注意 xff1a 安装后 xff0c 要添加系统环境变量 3 xff0c

Tesseract-OCR-v5.0中文识别,训练自定义字库,提高图片的识别效果

Tesseract-OCR-v5.0中文识别,训练自定义字库,提高图片的识别效果 的相关文章

随机推荐

热门标签

Tesseract-OCR-v5.0中文识别,训练自定义字库,提高图片的识别效果的相关文章