图像处理/超轻OCR

2023-11-29

我有 55 000 个图像文件（JPG 和 TIFF 格式），它们是书中的图片。

每个页面的结构是这样的：

一些文字

---（水平线）---

a number

一些文字

---（水平线）---

另一个号码

一些文字

任何给定页面上可以有 0 到 4 条水平线。

我需要找到水平线下方的数字是多少。

但是，数字严格地相互遵循，从第一页的一个开始，所以为了找到数字，我不需要阅读它：我可以检测水平线的存在，这应该比尝试对页面进行 OCR 来检测数字。

该算法基本上是：

for each image
  count horizontal lines
  print image name, number of horizontal lines
  next image

问题是：执行“计算水平线”部分的最佳图像库/语言是什么？

检测线路的最简单方法可能是使用霍夫变换 in OpenCV（它有许多语言的包装器）。

OpenCV 霍夫变换将检测图像中的所有线条并返回它们的角度和开始/停止坐标。您应该只保留角度接近水平且长度足够的那些。

O'Reilly 的学习 OpenCV详细解释了函数的输入和输出（第 156 页）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

imageprocessing

OCR

图像处理/超轻OCR 的相关文章

如何使用最小生成树方法将边缘连接到图像中的节点

我正在做我的手写图像图形匹配项目我想在图形中表示给定的单词图像我使用下面的算法 Algorithm input Binary image B Grid width w Grid height h Output Graph g V E w
如何从一个清晰的例子计算二维图像中的吉布斯能量

我有一个关于矩阵的有趣问题在吉布斯分布中吉布斯能量U x 可以计算为这是所有可能的派系 C 上的派系势 Vc x 的总和右图团 c 被定义为 S 中站点的子集 x 蓝色像素的邻域是左图中黄色像素的邻居其中每对不同的站点都是邻居
在 R 中使用深度网络和 MNIST 数据读取手写数字第 3 部分

我尝试编写一个基于深度网络的程序来读取手写数字我在 Youtube 上找到了一个代码 https www youtube com watch v 5bso 5X7Zu4 https www youtube com watch v 5bso
来自 Google Vision API OCR 的响应 400，带有指定图像的 base64 字符串

我读了如何使用 Google Vision API 对 Base64 编码图像进行文本检测 https stackoverflow com questions 43094048 how to use the google vision ap
找不到仅适用于数字的 Tesseract 4.0 tessdata

正如这篇文章中所说 pytesseract 仅使用 tesseract 4 0 数字不起作用 https stackoverflow com questions 46574142 pytesseract using tesseract 4
计算径向轮廓的最有效方法

我需要优化图像处理应用程序的这一部分它基本上是按距中心点的距离划分的像素的总和 def radial profile data center y x np indices data shape first determine radii
iOS11视觉框架映射所有人脸特征点

我正在使用视觉框架并使用以下代码获取所有里程碑点 if let allFaceLandmarks landmarks allPoints print allFaceLandmarks 但无法找到这些点的映射例如右眼的索引号寻找相同的东西
有没有办法检测图像是否模糊？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想知道是否有一种方法可以通过分析图像数据来确定图像是否模糊估计图像清晰度的另一种非常简单的方法是使用拉普拉斯或 LoG 滤波器并
OpenCV：使用 StereoCamera 系统对颜色标记进行 3D 姿态估计

我有一个立体摄像系统并使用两者正确校准它 cv calibrateCamera and cv stereoCalibrate My reprojection error似乎没问题凸轮0 0 401427 凸轮1 0 388200 立体声
如何使用Java OpenCV

我正在使用图像处理开始我的最后一年项目并希望完成类似的事情this http www youtube com watch v EPai5f2sWaA 它是人体和物体检测的结合我真的很想用 Java 来做因为我在 C 方面的经验很少 I
在 Android 中使用 OpenCV 查找图像匹配

我正在尝试构建一个 Android 应用程序该应用程序可以比较设备相机拍摄的照片以在一组图像中找到匹配项我已经在 Android Studio 上配置了 OpenCV 但仅此而已有人可以通过链接到资源或建议教程来提供帮助吗 Open
Haar训练时正样本和负样本使用多少张图片？

我已经阅读了大量有关 Haar 训练的内容但我不清楚应该为正样本集和负样本集使用多少图像我看到建议使用很多图像有些人推荐数千张我也不清楚正负样本图像的数量是否应该相同这是关于 Haar 训练的最佳教程你试过这个吗 http no
PHP 中的 imagecolortransparent 不起作用

我想改变图像中的白色 http www arso gov si vreme napovedi 20in 20podatki radar gif http www arso gov si vreme napovedi 20in 20podat
在 Matlab 中高效获取像素坐标

我想在 Matlab 中创建一个函数给定一个图像该函数将允许人们通过单击图像中的像素来选择该像素并返回该像素的坐标理想情况下人们能够连续单击图像中的多个像素并且该函数会将所有相应的坐标存储在一个矩阵中有没有办法在Matlab中做
PyTorch 中的数据增强

我对 PyTorch 中执行的数据增强有点困惑现在据我所知当我们执行数据增强时我们保留原始数据集然后添加它的其他版本翻转裁剪等但 PyTorch 中似乎并没有发生这种情况据我从参考文献中了解到当我们使用data tra
如何确定透视变换后的点在新图像平面中的位置？

我使用 OpenCV Python Numpy 图像中有三个点我知道这些点的确切位置 P1 P2 N1 我要将图像转换为另一个视图例如我将透视图转换为侧视图如果这样做我将无法获得图像平面中这三个点的确切位置我应该以一种可以获得这
GrabCut - bgdModel 和 fgdModel 为空 - 断言错误

我正在尝试使用 OpenCV2 1 C 中的 GrabCut 算法进行图像分割这是我的代码 Mat rgbWorkImage imread argv 1 Mat mask mask Scalar 0 Mat bgdModel fgdMod
自动跟踪算法

我正在尝试写一个simple跟踪例程来跟踪电影中的某些点本质上我有一系列 100 帧长的电影在黑暗背景上显示一些亮点我每帧有大约 100 150 个点它们在电影的过程中移动我想跟踪它们所以我正在寻找一些有效的但可能不会过度实施
解决相关代码的低 FPS 问题以计算图像中的偏移

我正在尝试使用相关性来跟踪对象我在较大的图像中逐帧找到较小的补丁为此我发现补丁中的变化并且相关性最大的地方用新补丁更新补丁我的代码是 cv Mat im float 2 imagePart out cv Mat im float
Python 中的 Lanczos 插值与 2D 图像

我尝试重新缩放 2D 图像灰度图像大小为 256x256 所需输出为 224x224 像素值范围从 0 到 1300 我尝试了两种使用 Lanczos 插值来重新调整它们的方法首先使用PIL图像 import numpy as np

随机推荐

Android：ADT无法识别Nougat logcat的格式

我有一个旧 ADT Eclipse IDE for Android Developers 23 0 2 1259578 adtproduct 连接到 Nougat Pixel C ADT 无法正确读取 logcat 的格式如以下屏幕截图
Azure 定价 API

azure 是否有类似于 AWS 用于产品列表和定价目录的定价 api 例如要获取 EC2 定价和产品目录 AWS 提供了JSON CSV 文件想知道Azure是否有类似的东西 https prices azure com api re
如何在 awk 表达式中使用变量

我正在尝试执行这个命令 sed bla bla filename awk printf s s entry 3f 3f 3f 3f 1 3 4 5 6 7 但问题是我希望 3f 部分是可变的因此在一种情况下它可能是 3f 在另一种情
处理带参数的点击手势 iphone / ipad

当我的点击手势触发时我需要发送一个额外的参数但我一定做了一些非常愚蠢的事情我在这里做错了什么这是我正在创建和添加的手势 UITapGestureRecognizer tapGesture UITapGestureRecognizer
ProcessBuilder 不会停止

我正在尝试使用 Linux 下的 ProcessBuilder 类将 mp3 文件解码为 wav 文件由于某种原因该过程不会停止因此我必须手动取消它有人可以给我一个提示吗我认为引用的代码很容易重现 import java io p
验证数学方程 C++ [关闭]

Closed 这个问题需要多问focused 目前不接受答案我目前正在尝试构建一个非常简单的编译器我创建了一个函数使用调车场算法将中缀表示法的数学方程转换为 RPN 但是我遇到了问题我没有在转换函数中包含错误检查因此我想知道是否有
在 PHP 中的嵌套关联数组中搜索值并返回其路径

我正在尝试在 PHP 中的嵌套关联数组中搜索值很像 array search 但嵌套我需要导致该特定值的所有键我没有看到任何关于此特定功能的帮助所以现在我要问其他示例似乎返回数组中的所有值而不仅仅是单个键值对的路径 func
MonoTouch Enterprise - 部署

我们公司已开始构建用于企业部署的 MonoTouch iPad iPhone 应用程序如何使用该应用程序并创建 ipa 文件以上传到我们的 MDM 服务器 ipa 文件基本上是一个美化的 zip 文件您可以选择以下几条路线将项目导出到
带路径的 PHP 数组中的递归搜索

我有这个干草堆数组 array name gt Intro id gt 123 children gt name gt foo id gt 234 children gt name gt mur id gt 445 name gt chap
无法找到可安装的 ISAM 错误疑难解答

我安装了 32 位 MS Office 2013 以及 32 位 Office 可再发行组件和一个设置为编译为 32 位的小型 C 控制台应用程序以下代码会导致OleDbException提示找不到可安装的 ISAM public vo
mysql_query 仅返回 int/fload 数据库类型的字符串类型

我正在尝试处理 MySQL 选择结果我的问题是下面的示例代码仅返回一个包含所有值的数组string 甚至对于包含整数和浮点数的列也要键入 sth mysql query selectstr rows array while r mysql
Rcpparmadillo ：将 fastLM 对象转换为“lm”类型

首先感谢您提供这么好的包裹我希望对 fastLM 的输出运行 anova 但是 anova 只接受 lm 类型的对象有没有办法将 fastLM 对象转换为 lm 对象谢谢 S 首先 fastLM 存在是为了提供比lm 使其更快的方法之
“你好，世界！”遇到了意想不到的困难

我想学习 Clojure 我已经下载并设置了以下小工具 Clojure 1 6 0 来自官方网站莱宁根2 4 3 来自 GitHub 的苹果酒 0 6 0 我已经成功了现在我正在尝试打印消息 Hello World 同时从 Emacs
Google 日历 API - 创建活动时邀请电子邮件不会发送给与会者

我想使用 google api 将事件添加到 google 日历但活动创建后邀请电子邮件不会发送到与会者电子邮件列表这是我的代码
python 正则表达式仅匹配第一个实例

我有一个 python 代码我正在读取证书并仅匹配根证书例如我的证书如下 begin certificate CZImiZPyLGQBGRYFbG9jYWwxGjAYBgoJkiaJk IasdasdassZAEZFgp2aXJ0dW
Android：多个警报不起作用

在我的应用程序中我设置了两个闹钟在 ToogleButton 上我将使用以下代码将其设置为打开 case R id toggleButtonTwoMonth myPrefs this getSharedPreferences myPr
如何在内核中放置微秒延迟？

我想放置微秒延迟Linux kernel 哪些函数支持它需要添加什么头文件你最好读书Documentation timers timers howto txt在linux内核源代码中简而言之您可以使用msleep unsigned
为什么PWA提倡添加到主屏幕但只是创建chrome快捷方式而不是安装为apk？

我检查所有添加到主屏幕条件我想我在我的 PWA 中提供了所有这些当用户访问我的 PWA 迷你信息栏时当用户单击添加到主屏幕时仅将 PWA 的快捷方式添加到主屏幕但未安装 PWA 不在应用程序列表中并且深层链接不起作用 UPD
SlimDX/DirectX9/C# - 如何访问纹理中的像素数据

这是我在 StackOverflow 上遇到的第一个问题万岁我可以诚实地说我每天都使用 StackOverflow 来处理我的工作和个人编程谜题 99 9 的情况下我实际上也在这里找到了我需要的答案这太棒了我当前的问题实际上让我
图像处理/超轻OCR

我有 55 000 个图像文件 JPG 和 TIFF 格式它们是书中的图片每个页面的结构是这样的一些文字水平线 a number 一些文字水平线另一个号码一些文字任何给定页面上可以有 0 到 4 条水平线我需要找到水平线下

图像处理/超轻OCR

图像处理/超轻OCR 的相关文章

随机推荐

热门标签