基于YOLO-fastest-xl的OCR

2023-05-16

文章目录

基于YOLO-fastest-xl的OCR
- 项目介绍
- 对于yolo-fastest-xl的结构的更改
- 运行方法
- 效果总结

基于YOLO-fastest-xl的OCR

github链接https://github.com/qqsuhao/yolo-fastest-with-CRNN-for-OCR

项目介绍

本项目参考chineseOCR项目，使用了其代码架构和CRNN部分相关的代码与训练模型。
基于pytorch进行训练，基于opencv的dnn模块进行推理。
本项目的主要区别在于将yolov3的模型替换为yolo-fastest-xl，使得原本大小为200MB左右的模型缩减为3.5MB。
发现了chineseOCR中的一处bug：在本项目的crnn/opencv_dnn_detect.py的text_detect函数中的33-35行，改为36-38行。

对于yolo-fastest-xl的结构的更改

原本的yolo-fastest-xl模型只有两层yolo层，难以应对小目标检测，尤其是文本检测。因此增加一层yolo层，更改后的模型文件存放于yolo/configs/yolo-fastest-xl-3yolo.cfg中。

运行方法

克隆本项目以后安装相关的运行环境。
建议使用pycharm打开本项目，使用vscode的话可能会出现import文件路径错误。
在configs.py中进行配置。其他参数不用更改，需要关注第16行。如果使用第16行，则为使用yolov3进行推理，如果使用第17行，则为使用yolo-fastest-xl进行推理。
运行demo.py就可以完成文字检测到识别的整个过程。
由于yolo-fastest-xl权值文件较小，所以随着项目一起上传。但是yolov3的权值文件太大，没有上传。读者可以从文末的链接下载（包含yolov3的权值和crnn的权值），然后把所有文件放在yolov3-ocr/weights中。
其他关键文件说明：
- yolo/Toonnx.py 该文件将模型加载权值以后将模型转换为onnx文件。demo.py中的推理是使用onnx文件完成的。
- yolo/weights 和 yolo/checkpoints中存放着相关的权值文件，yolo/checkpoints是训练过程中存放断点的文件夹。
- yolo/中的大部分文件都和我其他的的yolo-fastest-xl相关的项目一致，可以参考我的其他项目。

效果总结

在test_samples/0.jpg上进行测试，yolov3需要0.8s左右，yolo-fastest-xl需要0.4s左右。
demo.py中有些参数在不同的模型和测试样本下可能需要进行微调。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

YOLO

fastest

OCR

基于YOLO-fastest-xl的OCR 的相关文章

PHP/jQuery/JavaScript 中的免费 OCR 处理 API [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案是否有任何免费的 PHP OCR API 在 PHP jQuery 或 JavaScript 中有详细
为什么用 PIL 和 pytesseract 无法获取字符串？

这是一个简单的Python 3光学字符识别 OCR 程序来获取字符串我已经在这里上传了目标gif文件请下载并另存为 tmp target gif try from PIL import Image except ImportError
描边宽度变换 (SWT) 实现（Java、C#...）[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我最近发现了笔划宽度变换如以下研究论文中所述使用笔划宽度变换检测自然场景中的文本 https ie
如何使用OCR（TesseractOCR）php库

我使用此链接克隆了 OCR 的 git 库 git clone git github com thiagoalessio tesseract ocr for php git 然后我只需按照以下步骤包含所需的文件example http th
如何在 OCR 中区分斜线零和八 (0->8)

我正在为我的 Android 应用程序使用 ML Kit for Firebase ReCalc 收据计算器 https play google com store apps details id info trekto receipts
识别图像中的 visio 形状

在提供 SCADA 解决方案时我们经常会获得结构化控制图如下所示的 visio 类似流程图中指定的最终用户规范这些规范通常以 PDF 格式或图像形式提交为了在 C 中访问这些我希望使用 OpenCV 库之一我正在研究模板识别
OCR 解决方案可以检测数字手写体吗？

有没有一种解决方案可以很好地书写数字 1 10 我尝试了超正方体但我只得到垃圾理想情况下是 OSS 但商业也可以 OpenCV 现在附带手写数字识别 OCR 示例你可以参考一下 http code opencv org project
使用 Google App Script 从 google 驱动器中进行 OCR 图像

我已经实现了以下脚本使用图像 URL 对单个和多个图像进行 OCR function doOCRALL var selected SpreadsheetApp getActiveSheet getActiveRange getValues
tesseract 无法识别该图像中的这个单词，这正常吗？

我需要从这样的小图像中提取单词我在命令行中使用带有西班牙语选项的 tesseract 如下所示 tesseract category png l spa psm 7 category txt 我认为该文本一定很容易被 OCR 解析但该单
Tess-2 OCR 不工作

我试图在 Android 上使用 tess two 从图像中获取文本但这给了我一个非常糟糕的结果 01 16 12 00 25 339 I Tesseract native 29038 Initialized Tesseract API
我自己的 Python OCR 程序

我还是一个初学者但我想写一个字符识别程序这个程序还没有准备好而且我编辑了很多所以评论可能不完全一致我将使用 8 个连通性来标记连通分量 from PIL import Image import numpy as np im Ima
为什么 pytesseract 导致 AttributeError: 'NoneType' 对象没有属性 'bands'？

我正在尝试开始使用 pytesseract 但正如你在下面看到的我遇到了问题我发现人们遇到了似乎相同的错误他们说这是 PIL 1 1 7 中的错误其他人说这个问题是由于 PIL 懒惰造成的需要强制 PIL 加载图像im load
让 tesseract 只识别数字

我正在尝试改进我制作的 OCR 程序来读取我正在使用的某个图像的布局现在我希望我的 OCR 程序只能识别数字 0 9 我尝试遵循问题的解决方案限制 tesseract 正在寻找的字符 https stackoverflow com q
tesseract (v3.03) 输出为 PDF [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案为什么会返回这个错误呢 root amd 3700 2gb ocr test tesseract l dan pdf png out pd
使用 Tesseract OCR 和 python 进行数字识别

我使用 Tesseract 和 python 读取数字从能量计除了数字 1 之外一切都运行良好 Tesseract 无法读取 1 数字 This is the picture I send to tesseract tesseract
如何将 Tesseract 导入 Angular2 (TypeScript)

我正在尝试将 Tesseract 导入 Angular2 TypeScript 我可以看到它保存到 node modules 文件夹中但是在使用时 import Tesseract from types tesseract js it s
无法将大小为 1665179 的数组重塑为形状 (512,512,3,3)

该脚本用于进行检测权重文件是 yolov4 coco 预训练模型可以在这里找到 https drive google com file d 1cewMfusmPjYWbrnuJRuKhPMwRe b9PaT view https dri
将姓名拆分为名字和姓氏 Java（Android OCR）[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我使用本机 Android JAVA 创建了一个 OCR 光学字符识别应用程序我可以将图像转换为文本视图但是我如何使用这些词分别识别名
找不到仅适用于数字的 Tesseract 4.0 tessdata

正如这篇文章中所说 pytesseract 仅使用 tesseract 4 0 数字不起作用 https stackoverflow com questions 46574142 pytesseract using tesseract 4
从笔记本中提取文本

我正在尝试从图像中提取手写文本我使用 python 和 opencv 函数例如 find contours 当我使用像这样的图像时一切进展顺利它工作得很好因为我有一个简单的背景但后来我用这张图片测试了它由于背景中有笔记本的线条

随机推荐

eclipse中SVN分支合并到主干

在项目开发中 xff0c 需要添加一些新的功能 xff0c 但是又不想影响到其他开发人员的项目进度 xff0c 所以决定使用SVN分支进行开发 xff0c 分支开发完毕后再合并到主干本文介绍如何在eclipse中合并分支到主干要想将分支
阿里云服务器

一年多之前 xff0c 也就11年5月份的样子 xff0c 阿里云云服务器产品线终于上线了但那时候 xff0c 国内完全没有能称得上云服务器的 xff0c 很多小公司就是搞个VPS就叫云服务器了以至于阿里云云服务器刚出来的时候 xff0
mac 下使用 iterm2 配置及快键键使用

mac 下使用 iterm2 配置及快键键使用标签 xff08 空格分隔 xff09 xff1a mac 之前介绍过一篇关于mac 下使用和配置 iterm2的blog 今天这篇稍微详细一点介绍并且搭配 zsh zsh 会单独开一篇博
Java实现快速排序

一原理快速排序算法通过多次比较和交换来实现排序 xff0c 其排序流程如下 xff1a 1 首先设定一个分界值 xff0c 通过该分界值将数组分成左右两部分 2 将大于或等于分界值的数据集中到数组右边 xff0c 小于分界值的数据集中到
C#，生信软件实践（03）——DNA数据库GenBank格式详解及转为FASTA序列格式的源代码

1 GenBank 1 1 NCBI 美国国家生物技术信息中心 xff08 美国国立生物技术信息中心 xff09 NCBI xff08 美国国立生物技术信息中心 xff09 是在NIH的国立医学图书馆 xff08 NLM xff09 的一个
【坑】zsh和oh-my-zsh卸载后导致无法登陆

apt get remove zsh 然后断开终端 xff0c 就再也连不上了 xff0c 崩溃啊 xff01 以下登陆为www用户登陆各种找 xff0c 到这里 https www cnblogs com EasonJim p 7863
获取最近使用应用列表

获取最近使用的应用列表需要使用到UsageStatsManager类 xff0c 还需要申请允许防御应用使用情况的权限 private void getPackagesInfo UsageStatsManager manager 61 Us
使用MediaProjectionManager进行截屏

最近项目中有用到远程截屏并上传截屏文件的需求一开始使用的是以下方法进行截屏 xff1a private void screenshot 获取屏幕 View dView 61 getWindow getDecorView dView set
安卓TV开发遇到的那些坑

最近公司需要开发一个TV的luancher xff0c 就是那种纯物理按键的遥控 xff0c 没有触摸屏 xff0c 现在说说我踩得那些坑 xff08 其实布局和代码逻辑和正常的安卓应用差不多 xff09 1 焦点焦点焦点 xff0c
安卓TV列表刷新时焦点自动变成第一个

最近在开发安卓TV项目 xff0c 列表调用notifyDataSetChanged xff08 xff09 方法刷新数据时 xff0c 焦点自动就变成第一个子item去了 xff0c 查了半天发现用notifyItemRangeChang
安卓蓝牙BLE设备通讯发送和接受超过20个字节的问题

最近做的项目是手机端和BLE设备通讯 xff0c 而BLE设备又做了限制一次包只能传递20个字节的数据 xff0c 多了就得分包发送 xff0c 在这里记录一下如何解决这个问题 xff08 PS xff1a 之前链接什么的回调什么的就不过
获取最近运行应用方法和杀进程的方法

最近公司的项目有个需求就是获取最近手机正在运行的进程 xff0c 以及杀掉进程就是类似于安卓手机中的长按home键的效果先说说获取最近手机正在运行的进程方法 xff1a 直接上代码 xff0c 代码中有注释 xff1a appbeans
把自己的应用程序push至system/app下，把自己的app改成系统级别的app

想把一个应用程序放入到系统文件夹下的话 xff0c 手机必须的root的情况下才能push进去下面我就说说步骤吧 xff1a 1 先把手机用USB和电脑连接 2 如果电脑配置了adb的环境的话直接cmd xff0c 未配置环境的话找到sd
ConcurrentModificationException异常出现原因以及解决方法

今天在开发过程中遇到一个异常叫ConcurrentModificationException xff0c 这个异常用我的白话翻译是叫同时修改异常这个异常是怎么出现的呢 xff0c 先看看已下的代码 xff1a span class hlj
retrofit中使用body标签传RequestBody

现在的Android开发者基本上都用过retrofit这个第三方网络请求库吧 xff01 xff01 xff01 网络请求中有get post delete和put等等请求方式现在我们需要用到post请求 xff1a span class
SpringBoot配置拦截器拦截器使用

拦截器介绍 Java中的拦截器是动态拦截 action 调用的对象 xff0c 然后提供了可以在 action 执行前后增加一些操作 xff0c 也可以在 action执行前停止操作 xff0c 功能与过滤器类似 xff0c 但是标准和实现
百度地图上根据经纬度集合绘制行车轨迹

以下是素材最近项目中用到了根据一段线路的经纬度集合来在地图上播放该车辆的行驶轨迹的需求下面我就讲一下我实现步骤效果图如下因为制作gif图为了控制大小去掉了很多帧不必在意这些细节嘿嘿 1 首先在界面上展示百度地图这不是废话么如
skip-GANomaly复现总结

文章目录 skip GANomaly复现总结附MvTec数据集介绍实验结果总结谈谈我对于skip GANomaly的看法最后的感想代码 skip GANomaly复现总结附MvTec数据集链接 xff1a https pan baid
YOLOv3 从入门到部署：（五）YOLOv3模型的部署（基于C++ opencv）

文章目录 YOLOv3 从入门到部署 xff1a xff08 五 xff09 YOLOv3模型的部署 xff08 基于C 43 43 opencv xff09 目录关于opencv的DNN介绍代码讲解效果展示 YOLOv3 从入门到部署 x
基于YOLO-fastest-xl的OCR

文章目录基于YOLO fastest xl的OCR项目介绍对于yolo fastest xl的结构的更改运行方法效果总结基于YOLO fastest xl的OCR github链接https github com qqsuhao yol

基于YOLO-fastest-xl的OCR

文章目录

基于YOLO-fastest-xl的OCR

项目介绍

对于yolo-fastest-xl的结构的更改

运行方法

效果总结

基于YOLO-fastest-xl的OCR 的相关文章

随机推荐

热门标签