从扫描文档中提取行表 opencv python

2024-05-21

我想从扫描的表中提取信息并将其存储为 csv。现在我的表提取算法执行以下步骤。

应用倾斜校正
应用高斯滤波器进行去噪。
使用 Otsu 阈值进行二值化
进行形态学开局。
Canny 边缘检测
进行霍夫变换以获得表格行。
去除重复行（10像素范围内相同的行）
使用线斜率过滤水平线和垂直线（水平线和垂直线的法线斜率应小于 +/-5 度）。

该算法对于数字生成的 pdf 和大多数扫描文档运行良好。但是，某些文档的表格很嘈杂，因此无法正确识别行。

这是我的算法失败的示例图像。

这些是我在这张桌子上做的操作。 1.高斯模糊

2.大津阈值处理

3.形态开放

4.Canny边缘检测

5.过滤后的线条，可以看到线条明显没有被识别正确。

任何人都可以建议更好的方法从这种质量较差的扫描中提取水平线和垂直线。

提前致谢！！

我在这个博客中找到了一个完美的解决方案。https://medium.com/coinmonks/a-box-detection-algorithm-for-any-image-containing-boxes-756c15d7ed26 https://medium.com/coinmonks/a-box-detection-algorithm-for-any-image-containing-boxes-756c15d7ed26

在这里，我们使用垂直内核来检测垂直线和水平内核来检测水平线进行形态转换，然后将它们组合起来以获得所有所需的线。

Vertical lines

Horizontal lines

required output

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

imageprocessing

houghtransform

opencv

从扫描文档中提取行表 opencv python 的相关文章

Python PAM 模块的安全问题？

我有兴趣编写一个 PAM 模块该模块将利用流行的 Unix 登录身份验证机制我过去的大部分编程经验都是使用 Python 进行的并且我正在交互的系统已经有一个 Python API 我用谷歌搜索发现pam python http pa
如何在android上的python kivy中关闭应用程序后使服务继续工作

我希望我的服务在关闭应用程序后继续工作但我做不到我听说我应该使用startForeground 但如何在Python中做到这一点呢应用程序代码 from kivy app import App from kivy uix floatl
DreamPie 不适用于 Python 3.2

我最喜欢的 Python shell 是DreamPie http dreampie sourceforge net 我想将它与 Python 3 2 一起使用我使用了添加解释器 DreamPie 应用程序并添加了 Python 3 2
如何打印没有类型的defaultdict变量？

在下面的代码中 from collections import defaultdict confusion proba dict defaultdict float for i in xrange 10 confusion proba di
如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
如何使用包含代码的“asyncio.sleep()”进行单元测试？

我在编写 asyncio sleep 包含的单元测试时遇到问题我要等待实际的睡眠时间吗 I used freezegun到嘲笑时间当我尝试使用普通可调用对象运行测试时这个库非常有用但我找不到运行包含 asyncio sleep 的测
keras加载模型错误尝试将包含17层的权重文件加载到0层的模型中

我目前正在使用 keras 开发 vgg16 模型我用我的一些图层微调 vgg 模型拟合我的模型训练后我保存我的模型model save name h5 可以毫无问题地保存但是当我尝试使用以下命令重新加载模型时load mod
feedparser 在脚本运行期间失败，但无法在交互式 python 控制台中重现

当我运行 eclipse 或在 iPython 中运行脚本时它失败了 ascii codec can t decode byte 0xe2 in position 32 ordinal not in range 128 我不知道为什么但
python pandas 中的双端队列

我正在使用Python的deque 实现一个简单的循环缓冲区 from collections import deque import numpy as np test sequence np array range 100 2 resha
在pyyaml中表示具有相同基类的不同类的实例

我有一些单元测试集希望将每个测试运行的结果存储为 YAML 文件以供进一步分析 YAML 格式的转储数据在几个方面满足我的需求但测试属于不同的套装结果有不同的父类这是我所拥有的示例 gt gt gt rz shorthand for
Abaqus 将曲面转化为集合

我一直试图在模型中找到两个表面的中心参见照片但未能成功它们是元素表面面查询中没有选项可以查找元素表面的中心只能查找元素集的中心找到节点集的中心也很好但是我的节点集没有出现在工具 gt 查询 gt 质量属性选项中而且我找不到
HTTPS 代理不适用于 Python 的 requests 模块

我对 Python 还很陌生我一直在使用他们的 requests 模块作为 PHP 的 cURL 库的替代品我的代码如下 import requests import json import os import urllib impor
循环中断打破tqdm

下面的简单代码使用tqdm https github com tqdm tqdm在循环迭代时显示进度条 import tqdm for f in tqdm tqdm range 100000000 if f gt 100000000 4 b
如何将 PIL 图像转换为 NumPy 数组？

如何转换 PILImage来回转换为 NumPy 数组这样我就可以比 PIL 进行更快的像素级转换PixelAccess允许我可以通过以下方式将其转换为 NumPy 数组 pic Image open foo jpg pix numpy
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
设置 torch.gather(...) 调用的结果

我有一个形状为 n x m 的 2D pytorch 张量我想使用索引列表来索引第二个维度可以使用 torch gather 完成然后然后还设置新值到索引的结果 Example data torch tensor 0 1 2 3 4
在 Pandas DataFrame Python 中添加新列[重复]

这个问题在这里已经有答案了例如我在 Pandas 中有数据框 Col1 Col2 A 1 B 2 C 3 现在如果我想再添加一个名为 Col3 的列并且该值基于 Col2 式中如果Col2 gt 1 则Col3为0 否则为1 所以
用于运行可执行文件的python多线程进程

我正在尝试将一个在 Windows 上运行可执行文件并管理文本输出文件的 python 脚本升级到使用多线程进程的版本以便我可以利用多个核心我有四个独立版本的可执行文件每个线程都知道要访问它们这部分工作正常我遇到问题的地方是当它们
使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

我有一个 Pandas 数据框它有两列一列进程参数列包含字符串另一列值列包含相应的浮点值我需要过滤出部分匹配列过程参数中的一组键的子数据帧并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce
Python 分析：“‘select.poll’对象的‘poll’方法”是什么？

我已经使用 python 分析了我的 python 代码cProfile模块并得到以下结果 ncalls tottime percall cumtime percall filename lineno function 13937860 9

随机推荐

如何以编程方式播放 16 位 pcm 数组 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我有一个包含 16 位 pcm 值的短数组我希望能够在不添加任何标题也不将任何文件保存到内存的情况下播放它我知道我可能需要一个提供
连接 3 三张表

我有这个图表应该可以解释我的情况我需要一些关于连接 3 个表的帮助我不知道如何做这种事情因此我可以通过执行以下操作来经历一段检索记录的 while 循环 img src alt Album AlbumID 使用内部联接 http w
JavaScript 动画平滑滚动

默认情况下当您有这样的片段链接时 a href some url some fragment some text a 浏览器立即向下滚动到该片段我该如何编程才能使用标准 JS 顺利地向下移动到该片段这是一个例子 Example htt
如何在 WordPress HTML 中包含“onclick”对象

我正在尝试将 onclick 对象添加到触发事件的单站点即而不是多站点 WordPress 中的页面代码是 a href Send a voice message a 当尝试保存代码时 WordPress 会删除 onclick 对象
列出 JSON 的所有键和值

假设我有一些如下所示的 JSON items item id 0001 type donut name Cake ppu 0 55 batters batter
如何使用xquery查找节点并向其添加子节点？

是否可以使用xpath xquery查询特定的xml节点然后向其导入添加子节点示例代码取自http codepad org gJ1Y2LjM http codepad org gJ1Y2LjM 这是在类似的问题中提出的但不相同 1
结构差异 sudo() run('sudo 命令')

我想知道函数之间有什么区别sudo 和函数run sudo u user smth 文档上有 sudo 在所有运行方式上都是相同的除了它总是换行调用 sudo 程序中的给定命令以提供超级用户特权但有几次 sudo cmd 提示我输入
Apple 的 SKPaymentTransactionStateDeferred 警报消息流是什么？

在 iOS8 中 Apple 为 IAP 交易引入了新的 SKPaymentTransactionStateDeferred 状态例如参见https developer apple com library ios technotes t
将下拉列表与字典绑定

我将字典绑定到下拉列表举例来说我的字典中有以下项目 Test1 123 Test2 321 我希望下拉文本采用以下格式 Test1 Count 123 Test2 Count 321 我沿着以下路径走但没有运气 MyDropDown
在 matplotlib 中的极坐标图上移动径向刻度标签

From matplotlib 示例 http matplotlib org examples pylab examples polar demo html import numpy as np import seaborn as sbs
Spotify 登录错误 INVALID_CLIENT：无效的重定向 URI android

我正在制作一个包含 Spotify 集成的应用程序我点击了此链接https developer spotify com technologies spotify android sdk tutorial https developer s
如何改变HTML5视频的播放速度？

如何更改 HTML5 中的视频播放速度我查过视频标签的属性 https www w3schools com html html5 video asp在 w3school 但无法做到这一点根据这个网站 http www chipwreck
通过docker使用Selenium python库，Chrome报错无法启动：异常退出

我正在尝试使用以下命令运行一些 python 脚本selenium我从基于 miniconda anaconda 的 docker 容器中获取了库但我不断收到此错误 selenium common exceptions WebDriver
如果在等待“read -s”时中断，在子进程中运行 bash 会破坏 tty 的标准输出吗？

正如 Bakuriu 在评论中指出的那样这基本上与BASH 输入期间按 Ctrl C 会中断当前终端 https stackoverflow com questions 31808863 bash ctrlc during input b
PHP：如何检查总数。 URL 中的参数？

我正在使用 REQUEST 检索参数有没有办法找到总数 URL 中的参数而不是检索每个参数然后进行计数这将为您提供总数分隔的 URL 查询参数 count explode SERVER QUERY STRING 如果您只想要唯一的参
如何知道用户是否在 Android 应用程序中输入了错误的密码（锁定屏幕）

我正在开发一个 Android 应用程序如果用户在 Android 锁定屏幕中输入错误的密码则必须完成其中一项活动例如如果用户输入错误的密码则会发送电子邮件我将不胜感激任何帮助提前致谢 Kshitij 锁屏在完全沙箱环境中运行
如何避免连接两个表时重复

Student Table SID Name 1 A 2 B 3 C Marks Table id mark subject 1 50 physics 2 40 biology 1 50 chemistry 3 30 mathematics
C 中“complex”的默认类型

根据我读过的文档 C99 和更高版本的支持float complex double complex and long double complex作为复杂类型但是此代码在使用时编译时不会发出警告gcc Wall Wextra inclu
Gspread如何复制sheet

在 Stackoverflow 上进行谷歌搜索和搜索后我想我找不到有关如何复制现有工作表现有模板工作表并将其保存到另一个工作表中的指南根据文档有重复表 https gspread readthedocs io en latest
从扫描文档中提取行表 opencv python

我想从扫描的表中提取信息并将其存储为 csv 现在我的表提取算法执行以下步骤应用倾斜校正应用高斯滤波器进行去噪使用 Otsu 阈值进行二值化进行形态学开局 Canny 边缘检测进行霍夫变换以获得表格行去除重复行 10像素范围内相

从扫描文档中提取行表 opencv python

从扫描文档中提取行表 opencv python 的相关文章

随机推荐

热门标签