使用ImageMagick和Tesseract做中文文本识别

2023-05-16

一、用imagemagic对图片进行预处理,以提高识别率


convert -compress none -depth 8 -alpha off -crop 112x15+0+1 -monochrome ./1.png ./1.tif  

  1.-compress none,必选参数.必须在无压缩模式下进行,否则tesseract可能不接受图片。

  2.-depth 8,可选参数。加上据说可以提高识别率。

  3.-alpha off,可选参数。加上据说可以提高识别率。

  4.-crop ... 可选参数。用来裁掉图片的空白区域和下划线。具体格式为:width x height + x + y,按照矩形区域裁剪,x和y是指矩形。

的左上角的坐标的,width和height是说矩形框的宽高,如果width或者height写0,意思是取当前图片本身的宽或者高。

  5.-monochrome,可选参数。是把图片处理成黑白二色,即所谓的二值化,也可以尝试下-colorspace Gray来代替。


convert ./1.tif -scale 300% ./1.tif  

  放大图片,以提高识别率,少数情况下图片放大后反而识别不出来了。

二、用tesseract来识别图片


tesseract ./1.tif ./1 -l chi_sim -psm 7  

  1.-l,必选参数。用来指定语言类型,系统默认不支持中文,要到谷歌下载中文语言包,放到tesseract安装目录下的tessdata文件夹中,即chi_sim.traineddata这个文件。

  2.-psm 7,可选参数。这个参数用来告诉tesseract目标图片当中只有一行文字,这么做可以提高识别率。

转载于:https://www.cnblogs.com/kong0it/archive/2013/06/15/3137130.html

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用ImageMagick和Tesseract做中文文本识别 的相关文章

  • oracle-plsql初步使用

    之前使用Oracle数据库都是通过jdbc接口调用oracle 最近由于工作的关系需要通过tns操作Oracle数据库 xff0c 于是把最近学习和收集的一点内容记录下来 xff0c 以便以后再次使用时参考 概念先行概念落地登陆常用sql利
  • ubuntu on win10

    开启大门 设置 安全和更新 针对开发人员 使用开发人员功能 开发人员模式控制面板 程序和功能 启用和关闭windows功能 适用于Linux的windows子系统 xff08 beta xff09 进入cmd命令窗口 xff0c 输入bas
  • Lamp环境搭建和ucenter/ucenterhome

    环境 xff1a Centos 7 3 1611 步骤 xff1a 安装apache php软件 xff1a yum install httpd php php mysql安装mysql mariadb xff0c 以Centos系统为例
  • win10安装系统自带应用

    以管理员身份启动系统自带的Windows Powershell组件 xff0c 接着输入Get AppxPackage allusers Select Name PackageFullName xff0c 通过该命令获取当前系统安装的所有应
  • SQL DDL从MySQL到Oracle

    最新一个项目的sql ddl为MySQL准备的 xff0c 我想在Oracle中使用 之前不太了解两者的区别 xff0c 结果报错一坨 于是顶着头皮开始看什么问题 xff0c 以下是我陷过的坑 xff0c 让大家看看 废话少说 xff0c
  • 7 MySQL安全概述

    1 常见因素 密码 常见的密码要求 xff1a 包含大小写 数字 特殊字符限制 长度 不要保存密码明文 为防止彩虹表 xff0c 也不要简单的使用hash方法 xff0c 可以采用hash hash password 43 salt 的方式
  • 关于SIFT和SURF介绍

    SIFT xff08 尺度不变特征变换 xff09 关于一些角点检测技术 xff0c 比如 Harris 等 它们具有旋转不变特性 xff0c 即使图片发生了旋转 xff0c 我们也能找到同样的角点 xff0c 但如果进行图像缩放 xff0
  • 7.2 MySQL权限系统原理

    MySQL权限系统的用户接口由SQL语句组成 xff0c 比如create user xff0c grant xff0c revoke 在数据库内部 xff0c MySQL把权限信息保存在MySQL database的赋权表中 MySQL服
  • 7.2.1 MySQL提供的权限

    MySQL提供的权限应用于不同的上下文和不同的操作级别 xff1a 管理权限使用户可以管理MySQL服务器的操作 这些权限是全局性的 xff0c 因为它们不是局限于某个特定的数据库 数据库权限应用于数据库和数据库的组成对象 这些权限可以被赋
  • 7.3 MySQL用户账号管理

    7 3 1用户名称和密码 MySQL把账号存储在mysql系统数据库的user表中 一个账号被定义成一个用户名称和能够连接到服务器的客户端主机 xff08 群 xff09 账号都有一个密码 MySQL支持授权插件 xff0c 也就是说一个账
  • 7 Oracle 管理用户和安全

    用户和安全概览 用户账号由一个用户名确认 xff0c 定义了用户的属性包括 xff1a 鉴权方式 数据库鉴权密码 永久存储和临时存储的默认表空间 表空间配额 账号状态 xff08 是否锁定 xff09 密码状态 xff08 是否过期 xff
  • linux-bash-find

    FIND 1 General Commands Manual FIND 1 1 NAME find search for files in a directory hierarchy 2 SYNOPSIS find H L P D debu
  • awk、任务管理

    awk awk F 39 39 39 span class hljs operator span class hljs keyword BEGIN span l 61 span class hljs number 0 span span c
  • java数据结构和算法

    常见的数据结构 数组 gt 方便通过下标随机访问数据 有序数组无序数组数组大小一旦确定无法变更栈 先进后出只能压入 xff08 push xff09 查看 xff08 peek xff09 删除 xff08 pop xff09 栈顶无法查找
  • spring概述

    spring框架主要包括以上几个方面
  • 查看进程_端口的命令

    1 Windows平台 在windows控制台窗口下执行 xff1a netstat nao findstr 9010 TCP 127 0 0 1 9010 0 0 0 0 0 LISTENING 3017 你看到是PID为3017的进程占
  • hadoop学习记录—2.8.2documentation—mapreduce Tutorial

    1 概况 hadoop MapReduce是一个软件框架 xff0c 在这个框架上可以很容易编写以可靠 容错地运行在大量廉价硬件组成的集群 xff08 上千节点 xff09 上 并行地处理大量数据 xff08 数TB数据集 xff09 的程
  • 服务器使用windows server 2008修改密码步骤教程

    1 进入服务器后右击计算机 xff0c 点击管理 xff0c 进入服务器管理器 2 在服务器管理器里面双击配置 xff08 打开下一列 xff09 双击本地用户和组 xff08 打开下一列 xff09 点击用户 3 右击Administra
  • yarn结构-2.9.0

    YARN最基本的想法就是把资源管理和任务调度 监听功能分成独立的守护进程 这个想法就是有一个全局的ResourceManager xff08 RM xff09 和每个应用独自的ApplicationMaster xff08 AM xff09
  • spark集群模式概览

    本文简短概述下spark如何在集群上运行 xff0c 使得更简单地理解涉及到的组件 可以通过读 应用提交指南 来学习在一个集群上加载应用 组件 spark应用作为独立的进程集运行在集群上 xff0c 在主应用 xff08 称为驱动程序 xf

随机推荐

  • SPARK RDD编程指南

    在高层次面上 xff0c 每个spark应用有一个驱动程序组成 xff0c 驱动程序运行用户的主函数 xff0c 在集群上执行很多并行操作 Spark提供的主要抽象是RDD xff0c 可以进行并行操作的跨节点分散的元素集 RDDs可以由H
  • Spark SQL,DataFrames and Datasets Guide

    概览 Spark SQL是Spark的一个结构化数据处理模块 不像基本的Spark RDD API xff0c Spark SQL提供的接口提供更多关于数据和执行的操作的结构信息 从内部看 xff0c Spark SQL使用额外的信息来执行
  • Structured Streaming Programming Guide-2.3.0

    概览 结构化流是一个可伸缩和容错的流处理引擎 xff0c 内置在Spark SQL 引擎中 你可以以对静态数据表达批处理计算的方式表达你的流计算 Spark SQL引擎会注意逐渐 持续第运行 xff0c 并随着流数据不断到来而更新最终的结果
  • 数据结构abc

    数据结构是指数据组织 xff08 逻辑 物理 xff09 的方式 xff0c 相应的操作 xff08 比如新增 查询 删除 修改 xff09 规则称为算法 xff0c 数据结构和算法构成数据管理方案 数据结构和算法相互影响 xff0c 同时
  • python之web.py

    安装 安装web py 请先下载 xff1a http webpy org static web py 0 37 tar gz 或者获取最新的开发版 xff1a https github com webpy webpy tarball ma
  • try-catch 报错

    try catch的意义 xff1a 1 报错处理 xff0c 输出日志 2 不影响代码块之外的代码执行 xff0c 即发生发生错误后之后的代码仍然后继续执行 try catch代码块与 throws Exception方法块区别 1 tr
  • DSP RTB SSP

    作者 xff1a 炸乌鸦面 链接 xff1a https www zhihu com question 23458646 answer 130631448 来源 xff1a 知乎 著作权归作者所有 商业转载请联系作者获得授权 xff0c 非
  • eclipse常见问题

    1 设置js文件编辑器编码 2 设置项目部署位置 xff0c 是Tomcat安装目录还是workspace位置 3 设置Java源文件编译后class文件输出位置 4 Java类文件等修改后没有重新编译 如果还不行 xff0c 就将JRE库
  • Windows系统和Linux系统服务器该如何远程连接

    程序架设离不开服务器 xff0c 而服务器跟我们家用电脑类似 xff0c 也都有操作系统 xff0c 目前市场广泛使用的服务器操作系统有Windows系统和Linux系统 那么我们改如果远程连接上去操作嗯 xff0c 接下来就给大家分享下常
  • HTML5集锦

    1 js获取当前域名 Url 相对路径和参数以及指定参数 https www cnblogs com wangdahai p 6221399 html 2
  • web on servlet stack-5.0.4

    翻译自https docs spring io spring docs 5 0 4 RELEASE spring framework reference web html 这部分文档涵盖Servlet Stack的支持 基于Servlet
  • flume1.8.0用户指南

    以下内容翻译自http flume apache org FlumeUserGuide html 一 引入 1 概览 Apache Flume是一个分布式 可靠的 可用的系统 xff0c 高效地从不同的源收集 聚集和移动大量的日志数据到一个
  • easyui框架combotree和combobox多选模式取值样例

    combotree html lt div class 61 34 conditions staff ue clear 34 br style 61 34 overflow visible float left line height 30
  • SVM-support vector machine

    classification Algorithms SVM nearest neighbors random forest regression Algorithms SVR ridge regression Lasso cluster A
  • cmd端口进程管理

    根据端口号查找进程 gt netstat aon findstr 8080 TCP 0 0 0 0 8080 0 0 0 0 0 LISTENING 10064 TCP 8080 0 LISTENING 10064 根据进程好查找进程 gt
  • javaweb相对路径和绝对路径

    绝对路径 xff1a 相对磁盘位置 示例 xff1a E workspace git metadata plugins org eclipse wst server core tmp2 wtpwebapps project app uplo
  • ActiveMQ 使用Ajax 收发消息实战

    原理简析 ActiveMQ 在版本发布包中包含了web sample的demo 其中就包含js与ActiveMQ交互的库文件amq js 以5 8 0版本为例 该文件目录为 apache activemq 5 8 0 webapps dem
  • HTML5中常用的标签居中方式

    span class hljs comment father width 300px height 300px background ccc display table cell vertical align middle text ali
  • windows-terminal 搭配 oh-my-posh 配置自定义终端

    目录 1 启动 powershell2 查看 powershell 版本3 升级 powershell4 修改执行策略5 powershell7 说明6 配置启动文件7 oh my posh 下载安装8 配置 oh my posh Them
  • 使用ImageMagick和Tesseract做中文文本识别

    一 用imagemagic对图片进行预处理 xff0c 以提高识别率 convert compress none depth 8 alpha off crop 112x15 43 0 43 1 monochrome 1 png 1 tif