使用 Python 和 OpenCV 检测 OCR 中的字间空间

2024-02-19

我是 Python 和 OpenCV 的新手。我目前正在使用 Python 和 OpenCV 进行 OCR 工作不使用超立方体到目前为止，我已经成功检测文本（字符和数字），但在检测单词之间的空格时遇到了问题。例如- 如果图像显示“Hello John”，那么它会检测到 hello john，但无法检测到它们之间的空格，所以我的输出是“你好约翰“它们之间没有任何空格。我提取轮廓的代码是这样的（我已经导入了所有必需的模块，这是提取轮廓的主模块）：

 imgGray = cv2.cvtColor(imgTrainingNumbers, cv2.COLOR_BGR2GRAY)
 imgBlurred = cv2.GaussianBlur(imgGray, (5,5), 0)                        


 imgThresh = cv2.adaptiveThreshold(imgBlurred,                           
                                  255,                                  
                                  cv2.ADAPTIVE_THRESH_GAUSSIAN_C,       
                                  cv2.THRESH_BINARY_INV,                
                                  11,                                   
                                  2)                                    

 cv2.imshow("imgThresh", imgThresh)      

 imgThreshCopy = imgThresh.copy()        

 imgContours, npaContours, npaHierarchy = cv2.findContours(imgThreshCopy,        
                                             cv2.RETR_EXTERNAL,                 
                                             cv2.CHAIN_APPROX_SIMPLE)

之后，我对提取的数字和字符轮廓进行分类。请帮我检测它们之间的空间。预先感谢您，您的回复将非常有帮助。

由于您没有提供任何示例图像，我只是生成了一个简单的图像来测试：

h, w = 100, 600
img = np.zeros((h, w), dtype=np.uint8)
font = cv2.FONT_HERSHEY_SIMPLEX
cv2.putText(img, 'OCR with OpenCV', (30, h-30), font, 2, 255, 2, cv2.LINE_AA)

正如我在评论中提到的，如果你只是dilate https://docs.opencv.org/3.3.0/d9/d61/tutorial_py_morphological_ops.html图像，然后白色区域将会扩大。如果您使用足够大的内核来执行此操作，以便附近的字母合并，但又足够小以防止单独的单词合并，那么您将能够提取每个单词的轮廓，并使用它一次屏蔽一个单词以用于 OCR 目的。

kernel = cv2.getStructuringElement(cv2.MORPH_ELLIPSE, (15, 15))
dilated = cv2.dilate(img, kernel)

要单独获取每个单词的掩码，只需找到这些较大斑点的轮廓即可。您也可以对轮廓进行排序；垂直、水平或两者兼而有之，以便您按照正确的顺序获得单词。因为我只有一行，所以我将在x方向：

contours = cv2.findContours(dilated, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_NONE)[1]
contours = sorted(contours, key=lambda c: min(min(c[:, :, 0])))

for i in range(len(contours)):

    mask = np.zeros((h, w), dtype=np.uint8)

    # i is the contour to draw, -1 means fill the contours
    mask = cv2.drawContours(mask, contours, i, 255, -1)
    masked_img = cv2.bitwise_and(img, img, mask=mask)

    cv2.imshow('Masked single word', masked_img)
    cv2.waitKey()

    # do your OCR here on the masked image

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python27

opencv

使用 Python 和 OpenCV 检测 OCR 中的字间空间的相关文章

使用 lxml 和 xpath 解析 xml 文件时如何保留 &

我试图从输入 xml 文件中提取一些信息并使用 lxml 和 xpath 指令将其打印到输出文件中我在读取如下所示的 xml 标签时遇到问题
logger.warning("MSVC is not support") 在 Windows 10 上安装 pystan 时出错

我的目标是在我的 Windows 10 计算机上安装 fbprophet 我正在尝试使用 pip 安装 pystan 先知的主要依赖项但大约一分钟后我收到以下错误 Traceback most recent call last File
Python 2.7 - statsmodels - 格式化和编写摘要输出

我正在使用逻辑回归pandas 0 11 0 数据处理和statsmodels 0 4 3在 Mac OSX Lion 上进行实际回归我将运行约 2 900 个不同的逻辑回归模型并需要将结果输出到 csv 文件并以特定方式格式化目前
使用 SURF 在检测到的对象周围绘制矩形

我正在尝试从涉及冲浪检测器的以下代码中检测对象我不想绘制匹配项我想在检测到的对象周围绘制一个矩形但不知何故我无法获得正确的单应性请任何人指出在哪里我走错了 include
Django - 没有名为 _sqlite3 的模块

我在 rhel 5 上安装了 django 1 4 默认情况下 rhel 5 中有 python 2 4 但要使用 django 1 4 我手动安装了 python 2 7 3 开发服务器运行良好但是当我创建一个新项目并将 setting
OpenCV Python RTSP 流

我想使用 RTSP 从 IP 摄像机流式传输视频但我有一个问题我已经安装了先决条件而且我的 RTSP 链接可以在 VlC 播放器上运行但是当我在编辑器中尝试并运行它时它说找不到相机这是我的代码 import cv2 import
VideoCapture 未检测到 uEye 摄像头

我的 uEye 相机遇到了一个问题使用我的笔记本电脑摄像头 id 0 或 USB 上的网络摄像头 id 1 此行完美运行 TheVideoCapturer open 1 TheVideoCapturer 属于 VideoCapture 类
如何将k4a_image_t转换为opencv矩阵？（Azure Kinect 传感器 SDK）

我开始尝试使用 Azure Kinect Sensor SDK 我经历了官方操作指南 https learn microsoft com en us azure Kinect dk about sensor sdk sensor sdk 我
python 2.7.5 中的 str() 与 repr() 函数[重复]

这个问题在这里已经有答案了有什么区别str and repr python 2 7 5 中的函数 python org 上的说明 The str 函数的目的是返回值的表示这些值是相当的人类可读的 while repr 是为了生成表示可
Python 的分布式锁管理器

我有一堆具有多个实例的服务器这些实例访问的资源对每秒的请求有硬性限制我需要一种机制来锁定所有正在运行的服务器和实例对此资源的访问我在github上找到了一个restful分布式锁管理器 https github com thefab
如何将 OpenCV 的测试框架与 CMake 结合使用？

好像 OpenCV 有一个测试框架 https github com Itseez opencv tree ef91d7e8830c36785f0b6fdbf2045da48413dd76 modules ts include opencv
在OpenCV中将YUV转换为BGR或RGB

我有一个电视采集卡其输入内容为 YUV 格式我在这里看到了与此问题类似的其他帖子并尝试尝试所述的所有可能的方法但它们都没有提供清晰的图像目前最好的结果是 OpenCVcvCvtColor scr dst CV YUV2BGR 函数
包装一个类，其方法返回该类的实例

我需要编写一个类来包装第三方包中的类通常第三方类具有返回第三方类实例的方法这些方法的包装版本必须将这些实例转换为包装类的实例但我无法使其工作我正在使用 Python 2 7 和新式类基于创建一个包装类来围绕现有函数调用前置和后置
检测计算机何时解锁 Windows

我用过这个优秀的方法 https stackoverflow com questions 20733441 lock windows workstation using python 20733443锁定 Windows 计算机那部分工作
如何识别与我的对象相关的轮廓并找到它们的几何质心

问题陈述和背景信息 EDIT 约束法兰上的红色会随着时间的推移而变化所以我此时不会尝试使用颜色识别来识别我的对象除非它足够强大此外外部照明也可能是一个因素因为将来这将是在室外区域我有 RGB 深度相机有了它我就能捕捉到这个
如何将 Opencv VideoWriter 与 GStreamer 结合使用？

我正在尝试使用 Opencv VideoWriter 传输 h264 流以使用 VideoCapture 将其传输到网络上的另一台电脑上但是我被困在 VideoWriter 上执行此代码会返回错误并且 out isOpened 始
NameError：名称“urllib”未定义”

CODE import networkx as net from urllib request import urlopen def read lj friends g name fetch the friend list from Liv
将图像分割成多个网格

我使用下面的代码将图像分割成网格的 20 个相等的部分 import cv2 im cv2 imread apple jpg im cv2 resize im 1000 500 imgwidth im shape 0 imgheight i
绘制与Fig.show()内联的IPython Notebook图形？

我正在使用 IPython Notebook 调用内联模式 pylab inline 以下代码立即在单元格处绘制一个图形 fig plt figure axes fig add axes 0 0 1 1 不过我想在一个单元格中创建绘图轴
如何将输入读取为数字？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动 Why are x and y下面的代码中使用字符串而不是整数注意在Python 2

随机推荐

启动Spring Boot应用程序时liquibase的问题

我有一个Spring Boot申请与liquibase 第一次我创建表格没有问题但当我再次启动时我遇到了无法解决的问题这是error Error starting ApplicationContext To display the c
读取外部网页的内容并获取特定元素[重复]

这个问题在这里已经有答案了可能的重复如何用PHP解析和处理HTML https stackoverflow com questions 3577641 how to parse and process html with php 我已经
如何确保我使用的是“服务器”JVM？

Sun 的 JVM 有两种风格 client and server 其中服务器 VM 应针对长时间运行的进程进行优化建议用于服务器应用程序当我跑步时java如果没有参数它会显示使用选项其中包括以下文本 The default VM
减小 EPS 格式的绘图大小

我有一个包含数百个项目的直方图我为其绘制了 Q Q 图这导致 EPS 大小为 2 5 兆字节对于仅包含在出版物中并且不会以 100 倍放大倍率查看的图形来说这太大了 R 中是否有任何选项可以以某种方式输出较小的 EPS 我搜索过文档
无法在任何地方运行 jupyter（终端、anaconda 分发器）Mac os 10.12.6

我在终端中运行 jupyter 时遇到问题运行后终端显示什么 maxim MacBook Pro Maxim jupyter notebook Traceback most recent call last File Library Fr
如何在C#中获取Windows面板控件中的Keypress事件

我想在 C 中的 Windows 面板控件中获取按键事件对我有帮助吗你应该处理面板按键 http msdn microsoft com en us library system windows forms panel keypress
弹簧形式：输入数字

我正在使用 Spring 的 form input 如下
VS 扩展中未处理的异常

我尝试为自定义文件定义创建语法突出显示加载时出现异常我已将 log 参数添加到 devenv 以获取日志 335 ERROR System Exception Duplicate EditorFormatDefinition expor
Python 中 OLS 的 Newey-West 标准错误？

我想要一个系数和与之相关的 Newey West 标准误差我正在寻找可以执行以下 R 代码正在执行的操作的 Python 库理想情况下但任何可行的解决方案都可以 library sandwich library lmtest a lt
为什么我使用 OpenLayers 在两个弹出窗口中获得相同的文本

我正在使用 OpenLLayers 5 我将经度纬度和汽车名称保存在数据库中的数组中我可以显示两个标记我的数组目前只有两个索引每个标记都有一个弹出窗口其中应包含其名称经度纬度例如第一个标记的弹出窗口将汽车 1 作为文本在
使用 FQL 聆听音乐 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在尝试使用 FQL 为用户和用户的朋友获取 music listens 有谁知道获取 music l
rake db:test:prepare 实际上做了什么？

我正在关注 Rails 教程视频但我不明白它是什么db test prepare命令确实如此有人可以提供解释吗上面的 rake db migrate 运行任何挂起的迁移开发环境并更新db schema rb 耙子 db test l
如何将 componentDidMount() 与 React-Redux connect() 混合使用？

这似乎是一个简单的用例但我无法弄清楚我想显示从通过 HTTP 对远程 API 的请求中检索到的项目列表我希望在请求发生时屏幕最初显示空白然后在可用时填充结果所以我想我会有两个组件哑的项目列表组件和包装器演示组件呃以某
无法在分布式模式下运行 Kafka Connect - 尝试创建/查找主题“connect-offsets”时出错

2017 08 31 10 15 20 715 WARN 配置提供了 internal key converter 但不是已知的配置 org apache kafka clients admin AdminClientConfig 231
Google Apps Profiles API：java.lang.NullPointerException：没有身份验证标头信息

public ContactFeed retrieveContacts ContactsService service Credential credential throws Exception URL url new URL https
在 Android TV Leanback 中实现文件对话框

我有一个dirPath String我希望能够将其更改为我为 Android TV 应用程序选择的目录我发现 Leanback 框架类似幻灯片的界面对于更微妙的操作来说有点麻烦但我想尽可能坚持使用它因为我总体上是 Android 和
在 Ionic 应用程序中一起使用 CORS 和 CSRF

我正在开发一个 Android 应用程序使用离子框架 http ionicframework com 基于我开发的 AngularJS 网站Jhipster https jhipster github io 由于我的 Web 应用程序中已
在 Flutter 中更新数据

我刚刚开始学习 Dart 和 Flutter 首先我想开发一个充当服务器的应用程序我们从telnet 所以目前我有以下两个课程 class HomeScreen extends StatefulWidget override Home
'?:'（三元/条件运算符）的结果类型是什么？

为什么第一个条件运算符会产生引用 int x 1 int y 2 x gt y x y 100 然而第二个却没有 int x 1 long y 2 x gt y x y 100 实际上第二个根本无法编译 error lvalue req
使用 Python 和 OpenCV 检测 OCR 中的字间空间

我是 Python 和 OpenCV 的新手我目前正在使用 Python 和 OpenCV 进行 OCR 工作不使用超立方体到目前为止我已经成功检测文本字符和数字但在检测单词之间的空格时遇到了问题例如如果图像显示 Hello J

使用 Python 和 OpenCV 检测 OCR 中的字间空间

使用 Python 和 OpenCV 检测 OCR 中的字间空间 的相关文章

随机推荐

热门标签

使用 Python 和 OpenCV 检测 OCR 中的字间空间的相关文章