基于大空白的扫描图像切片

2023-12-19

我打算将问题分开this https://www.tnpsc.gov.in/Tentative/Document/RAGS-2022_opt.pdfPDF 文档。挑战在于问题的间隔不是有序的。例如第一个问题占据一整页，第二个问题也占据一整页，第三个问题和第四个问题一起占据一页。如果我必须手动切片，那将需要很长时间。所以，我想把它分成图像并对其进行处理。是否有可能拍摄这样的图像

并像这样分成单独的组件？

这是一个经典的情况dilate https://opencv24-python-tutorials.readthedocs.io/en/latest/py_tutorials/py_imgproc/py_morphological_ops/py_morphological_ops.html#dilation。这个想法是相邻的文本对应于同一问题，而较远的文本是另一个问题的一部分。每当您想要将多个项目连接在一起时，您可以扩大它们以将相邻轮廓连接成单个轮廓。这是一个简单的方法：

获取二值图像。 加载图像 https://www.geeksforgeeks.org/python-opencv-cv2-imread-method/，转换成灰度 https://opencv24-python-tutorials.readthedocs.io/en/stable/py_tutorials/py_imgproc/py_colorspaces/py_colorspaces.html, 高斯模糊 https://opencv24-python-tutorials.readthedocs.io/en/latest/py_tutorials/py_imgproc/py_filtering/py_filtering.html#gaussian-filtering, then 大津的门槛 https://opencv24-python-tutorials.readthedocs.io/en/latest/py_tutorials/py_imgproc/py_thresholding/py_thresholding.html#otsus-binarization以获得二值图像。
消除小噪音和伪影。我们创建一个矩形核 https://opencv24-python-tutorials.readthedocs.io/en/latest/py_tutorials/py_imgproc/py_morphological_ops/py_morphological_ops.html#structuring-element and 变形开放 https://opencv24-python-tutorials.readthedocs.io/en/latest/py_tutorials/py_imgproc/py_morphological_ops/py_morphological_ops.html#opening去除图像中的小噪声和伪影。
将相邻的单词连接在一起。我们创建一个更大的矩形内核并且dilate https://opencv24-python-tutorials.readthedocs.io/en/latest/py_tutorials/py_imgproc/py_morphological_ops/py_morphological_ops.html#dilation将各个轮廓合并在一起。
检测问题。从这里我们找到轮廓 https://docs.opencv.org/2.4/modules/imgproc/doc/structural_analysis_and_shape_descriptors.html#findcontours，使用从上到下对轮廓进行排序imutils.sort_contours() https://github.com/PyImageSearch/imutils/blob/master/imutils/contours.py#L7，用过滤器最小轮廓面积 https://docs.opencv.org/2.4/modules/imgproc/doc/structural_analysis_and_shape_descriptors.html#contourarea，得到矩形边界矩形坐标 https://docs.opencv.org/2.4/modules/imgproc/doc/structural_analysis_and_shape_descriptors.html?highlight=boundingrect#boundingrect and 突出显示矩形轮廓 https://opencv24-python-tutorials.readthedocs.io/en/latest/py_tutorials/py_imgproc/py_contours/py_contours_begin/py_contours_begin.html。然后，我们使用 Numpy 切片裁剪每个问题并保存 ROI 图像。

获得二值图像的大津阈值

这是有趣的部分发生的地方。我们假设相邻的文本/字符是同一问题的一部分，因此我们将各个单词合并成一个轮廓。问题是靠近在一起的单词的一部分，因此我们扩展以将它们连接在一起。

个别问题以绿色突出显示

热门问题

底部问题

已保存的 ROI 问题（假设从上到下）

Code

import cv2
from imutils import contours

# Load image, grayscale, Gaussian blur, Otsu's threshold
image = cv2.imread('1.png')
original = image.copy()
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
blur = cv2.GaussianBlur(gray, (7,7), 0)
thresh = cv2.threshold(blur, 0, 255, cv2.THRESH_BINARY_INV + cv2.THRESH_OTSU)[1]

# Remove small artifacts and noise with morph open
open_kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (5,5))
opening = cv2.morphologyEx(thresh, cv2.MORPH_OPEN, open_kernel, iterations=1)

# Create rectangular structuring element and dilate
kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (9,9))
dilate = cv2.dilate(opening, kernel, iterations=4)

# Find contours, sort from top to bottom, and extract each question
cnts = cv2.findContours(dilate, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
cnts = cnts[0] if len(cnts) == 2 else cnts[1]
(cnts, _) = contours.sort_contours(cnts, method="top-to-bottom")

# Get bounding box of each question, crop ROI, and save
question_number = 0
for c in cnts:
    # Filter by area to ensure its not noise
    area = cv2.contourArea(c)
    if area > 150:
        x,y,w,h = cv2.boundingRect(c)
        cv2.rectangle(image, (x, y), (x + w, y + h), (36,255,12), 2)
        question = original[y:y+h, x:x+w]
        cv2.imwrite('question_{}.png'.format(question_number), question)
        question_number += 1

cv2.imshow('thresh', thresh)
cv2.imshow('dilate', dilate)
cv2.imshow('image', image)
cv2.waitKey()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

基于大空白的扫描图像切片的相关文章

当我使用 Image.FromFile() 时 FileNotFound

我在这种情况下使用 Image FromFile string 方法 using System using System Collections Generic using System ComponentModel using Syste
如何打印没有类型的defaultdict变量？

在下面的代码中 from collections import defaultdict confusion proba dict defaultdict float for i in xrange 10 confusion proba di
Python 多处理示例不起作用

我正在尝试学习如何使用multiprocessing但我无法让它发挥作用这是代码文档 http docs python org 2 library multiprocessing html from multiprocessing imp
图像处理：什么是遮挡？

我正在开发一个图像处理项目我遇到了这个词闭塞在许多科学论文中遮挡在图像处理中意味着什么字典只是给出了一般的定义谁能使用图像作为上下文来描述它们遮挡意味着您想看到某些内容但由于传感器设置的某些属性或某些事件而无法看到它到底如何表
如何使用 Scrapy 从网站获取所有纯文本？

我希望在 HTML 呈现后可以从网站上看到所有文本我正在使用 Scrapy 框架使用 Python 工作和xpath body text 我能够获取它但是带有 HTML 标签而且我只想要文本有什么解决办法吗最简单的选择是ext
运行多个 scrapy 蜘蛛的正确方法

我只是尝试使用在同一进程中运行多个蜘蛛新的 scrapy 文档 http doc scrapy org en 1 0 topics practices html但我得到 AttributeError CrawlerProcess objec
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
Android 相机未保存在特定文件夹 [MediaStore.INTENT_ACTION_STILL_IMAGE_CAMERA]

当我在 Intent 中使用 MediaStore INTENT ACTION STILL IMAGE CAMERA 时遇到问题相机正常启动但它不会将文件保存在我的特定文件夹 photo 中但是当我使用 MediaStore ACTI
使用 OpenPyXL 迭代工作表和单元格，并使用包含的字符串更新单元格[重复]

这个问题在这里已经有答案了我想使用 OpenPyXL 来搜索工作簿但我遇到了一些问题希望有人可以帮助解决以下是一些障碍待办事项我的工作表和单元格数量未知我想搜索工作簿并将工作表名称放入数组中我想循环遍历每个数组项并搜索包含特
ExpectedFailure 被计为错误而不是通过

我在用着expectedFailure因为有一个我想记录的错误我现在无法修复但想将来再回来解决我的理解expectedFailure是它会将测试计为通过但在摘要中表示预期失败的数量为 x 类似于它如何处理跳过的 tets 但是当我
Numpy 优化

我有一个根据条件分配值的函数我的数据集大小通常在 30 50k 范围内我不确定这是否是使用 numpy 的正确方法但是当数字超过 5k 时它会变得非常慢有没有更好的方法让它更快 import numpy as np N 5000
从 pygame 获取 numpy 数组

我想通过 python 访问我的网络摄像头不幸的是由于网络摄像头的原因 openCV 无法工作 Pygame camera 使用以下代码就像魅力一样 from pygame import camera display camera in
如何将 PIL 图像转换为 NumPy 数组？

如何转换 PILImage来回转换为 NumPy 数组这样我就可以比 PIL 进行更快的像素级转换PixelAccess允许我可以通过以下方式将其转换为 NumPy 数组 pic Image open foo jpg pix numpy
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
VSCode：调试配置中的 Python 路径无效

对 Python 和 VSCode 以及 stackoverflow 非常陌生直到最近我已经使用了大约 3 个月一切都很好当尝试在调试器中运行任何基本的 Python 程序时弹出窗口The Python path in your
如何从没有结尾的管道中读取 python 中的 stdin

当管道来自打开时不知道正确的名称我无法从 python 中的标准输入或管道读取数据文件我有作为例子管道测试 py import sys import time k 0 try for line in sys stdin k k
用于运行可执行文件的python多线程进程

我正在尝试将一个在 Windows 上运行可执行文件并管理文本输出文件的 python 脚本升级到使用多线程进程的版本以便我可以利用多个核心我有四个独立版本的可执行文件每个线程都知道要访问它们这部分工作正常我遇到问题的地方是当它们
从 Python 中的类元信息对 __init__ 函数进行类型提示

我想做的是复制什么SQLAlchemy确实以其DeclarativeMeta班级有了这段代码 from sqlalchemy import Column Integer String from sqlalchemy ext declar
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql
Pandas 与 Numpy 数据帧

看这几行代码 df2 df copy df2 1 df 1 df 1 values 1 df2 ix 0 0 我们的教练说我们需要使用 values属性来访问底层的 numpy 数组否则我们的代码将无法工作我知道 pandas Data

随机推荐

Eclipse 使用 EGit，很难看到 git-blame 信息

使用 Eclipse Indigo Service Release 2 EGit 插件和 JDK 1 7 我已经看到它应该支持责备注释但我无法让它像我看到的那样显示在 Eclipse Wiki 上 http wiki eclipse or
在 ngFor Angular 2 中设置输入类型复选框的选中状态

我有一个 Angular 2 应用程序我使用 ngFor 来处理一堆复选框当我初始化这个组件时我需要根据天气设置复选框的状态 id 存在于数组中 div class col md 12 div class col lg 12 opti
延迟加载DLL

为简单起见我将 DLL TUTORIAL dll 和头文件 MathFuncsDll h 放在根文件夹 C 中然后创建空项目设置配置属性 gt 链接器 gt 输入 gt 延迟加载Dll s to C DLL TUTORIAL dl
pace.js“隐藏除 PACE 之外的所有内容，直到页面完全加载”本地副本

我能够隐藏除速度之外的所有内容直到安装时加载页面pace js 与 eager io https eager io app kYKTiQjoVjQk install 但是当使用 Bower 安装插件并下载 css 主题时我无法弄清楚如
Bash 脚本根据另一个文件中指定的日期从日志文件中提取条目？

我有一个相当大的逗号分隔 CSV 日志文件 gt 50000 行我们称之为 file1 csv 看起来像这样 field1 field2 MM DD YY HH MM SS field4 field5 field1 field2 07 2
将字节数组作为 char* 从 C# 传递到 C++ DLL

我正在通过一个byte 从 C 到 C DLL 在 C DLL 中我需要调用一个接受和读取的函数istream对象我打算收到byte 从 C 为char 并将其转换为istream C DLL extern C declspec dll
和 ${param} 之间有什么区别

在 struts 中我注意到有两种不同的方式来访问变量我很好奇它们之间有什么区别以及何时正确使用它们例如假设我们像这样设置变量高度
如何将按钮的文本左对齐？

现在我想用代码将按钮的文本左对齐该怎么做我编码如下 button titleLabel textAlignment UITextAlignmentLeft 但它不起作用你必须使用contentVerticalAlignment and
.gitattributes：text=auto 是否仍然使用 core.autocrlf 来检测 EOL

With a gitattributes entry text auto 签出文本文件时使用什么行分隔符这文档 https git scm com docs gitattributes gitattributes Settostringv
Eclipse 高亮显示出现次数，右列标记颜色

类似但又不同这个问题 https stackoverflow com questions 671219 eclipse coloring what is the pref item for background color of all
未找到内部存储上的 Android 文件

我正在尝试在我的应用程序的 Android 内部存储空间中写入一个文件经过多次尝试终于用这个方法成功了在 Android 手机的内存中写入读取文件 https stackoverflow com questions 9306155 w
我是否需要关闭和/或处置通过OperationContext.Current.GetCallbackChannel 获取的回调通道？

我正在使用 OperationContext Current GetCallbackChannel 获取调用 WCF 服务操作的客户端的通道我是否需要担心关闭处置这些回调通道或者这是由框架处理的好吧我自己尝试了一下结果发现如果
JavaFx：使用列名称将 TableView 导出到 Excel

我正在尝试导出tableView擅长使用阿帕奇兴趣点 http poi apache org 一切都很好但我需要导出所有表而不仅仅是项目我的意思是当我使用此代码时使用列名称 HSSFWorkbook workbook new HSSFW
使用 vuejs 中的方法进行条件 @click

这是我的 for 循环 li a href crumb name a li click methodName 不应在最后一次迭代中可用我可以使用 index breadcrumbs length 1 检查最后一次迭代使用 apply v
Caffe Sigmoid交叉熵损失层损失函数

我正在查看Caffe的代码Sigmoid 交叉熵损失层 https github com BVLC caffe blob master src caffe layers sigmoid cross entropy loss layer cp
wkhtmltopdf 的字母间距太大

我正在使用 wkhtmltopdf 将网页下载为 pdf 但是css属性letter spacing似乎不起作用 font size 20px letter spacing 0px font size 20px letter spacing
iOS - MKMapView 使用地址而不是纬度/经度进行位置注释

我可以在我的MKMapView然而通过使用纬度和经度我需要使用位置的提要是使用街道地址而不是纬度和经度例如 1234 西 1234 东旧金山 CA 这会不会与CLLocationManager 以前有人尝试过吗基于psoft的优秀
UILabel 文本作为 html 文本

我被一个小问题困住了我需要使用一个句子其中前两个单词为粗体后两个单词为斜体喜欢 I am using an O目标C开发商怎么做这在 Objective C 中可能吗对于 iOS7 你可以使用这个 NSString htmlS
BLOb：无法读取所有数据，但只有几kb

我正在使用 BLOb 支持从 MySQl 插入和读取 JDBC 我可以做到这一点但是当它读取时它只有几kb 我不知道为什么这是工作代码 import java sql import java io public class Inser
基于大空白的扫描图像切片

我打算将问题分开this https www tnpsc gov in Tentative Document RAGS 2022 opt pdfPDF 文档挑战在于问题的间隔不是有序的例如第一个问题占据一整页第二个问题也占据一整页第

基于大空白的扫描图像切片

基于大空白的扫描图像切片 的相关文章

随机推荐

热门标签

基于大空白的扫描图像切片的相关文章