图像处理/超轻OCR

2023-11-29

我有 55 000 个图像文件(JPG 和 TIFF 格式),它们是书中的图片。

每个页面的结构是这样的:

一些文字

---(水平线)---

a number

一些文字

---(水平线)---

另一个号码

一些文字

任何给定页面上可以有 0 到 4 条水平线。

我需要找到水平线下方的数字是多少。

但是,数字严格地相互遵循,从第一页的一个开始,所以为了找到数字,我不需要阅读它:我可以检测水平线的存在,这应该比尝试对页面进行 OCR 来检测数字。

该算法基本上是:

for each image
  count horizontal lines
  print image name, number of horizontal lines
  next image

问题是:执行“计算水平线”部分的最佳图像库/语言是什么?


检测线路的最简单方法可能是使用霍夫变换 in OpenCV(它有许多语言的包装器)。

OpenCV 霍​​夫变换将检测图像中的所有线条并返回它们的角度和开始/停止坐标。您应该只保留角度接近水平且长度足够的那些。

O'Reilly 的学习 OpenCV详细解释了函数的输入和输出(第 156 页)。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

图像处理/超轻OCR 的相关文章

  • 如何使用最小生成树方法将边缘连接到图像中的节点

    我正在做我的手写图像图形匹配项目 我想在图形中表示给定的单词图像 我使用下面的算法 Algorithm input Binary image B Grid width w Grid height h Output Graph g V E w
  • 如何从一个清晰的例子计算二维图像中的吉布斯能量

    我有一个关于矩阵的有趣问题 在吉布斯分布中 吉布斯能量U x 可以计算为 这是所有可能的派系 C 上的派系势 Vc x 的总和 右图 团 c 被定义为 S 中站点的子集 x 蓝色像素的邻域是左图中黄色像素的邻居 其中每对不同的站点都是邻居
  • 在 R 中使用深度网络和 MNIST 数据读取手写数字第 3 部分

    我尝试编写一个基于深度网络的程序来读取手写数字 我在 Youtube 上找到了一个代码 https www youtube com watch v 5bso 5X7Zu4 https www youtube com watch v 5bso
  • 来自 Google Vision API OCR 的响应 400,带有指定图像的 base64 字符串

    我读了如何使用 Google Vision API 对 Base64 编码图像进行文本检测 https stackoverflow com questions 43094048 how to use the google vision ap
  • 找不到仅适用于数字的 Tesseract 4.0 tessdata

    正如这篇文章中所说 pytesseract 仅使用 tesseract 4 0 数字不起作用 https stackoverflow com questions 46574142 pytesseract using tesseract 4
  • 计算径向轮廓的最有效方法

    我需要优化图像处理应用程序的这一部分 它基本上是按距中心点的距离划分的像素的总和 def radial profile data center y x np indices data shape first determine radii
  • iOS11视觉框架映射所有人脸特征点

    我正在使用视觉框架并使用以下代码获取所有里程碑点 if let allFaceLandmarks landmarks allPoints print allFaceLandmarks 但无法找到这些点的映射 例如右眼的索引号 寻找相同的东西
  • 有没有办法检测图像是否模糊? [关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 我想知道是否有一种方法可以通过分析图像数据来确定图像是否模糊 估计图像清晰度的另一种非常简单的方法是使用拉普拉斯 或 LoG 滤波器并
  • OpenCV:使用 StereoCamera 系统对颜色标记进行 3D 姿态估计

    我有一个立体摄像系统并使用两者正确校准它 cv calibrateCamera and cv stereoCalibrate My reprojection error似乎没问题 凸轮0 0 401427 凸轮1 0 388200 立体声
  • 如何使用Java OpenCV

    我正在使用图像处理开始我的最后一年项目 并希望完成类似的事情this http www youtube com watch v EPai5f2sWaA 它是人体和物体检测的结合 我真的很想用 Java 来做 因为我在 C 方面的经验很少 I
  • 在 Android 中使用 OpenCV 查找图像匹配

    我正在尝试构建一个 Android 应用程序 该应用程序可以比较设备相机拍摄的照片 以在一组图像中找到匹配项 我已经在 Android Studio 上配置了 OpenCV 但仅此而已 有人可以通过链接到资源或建议教程来提供帮助吗 Open
  • Haar训练时正样本和负样本使用多少张图片?

    我已经阅读了大量有关 Haar 训练的内容 但我不清楚应该为正样本集和负样本集使用多少图像 我看到建议使用很多图像 有些人推荐数千张 我也不清楚正负样本图像的数量是否应该相同 这是关于 Haar 训练的最佳教程 你试过这个吗 http no
  • PHP 中的 imagecolortransparent 不起作用

    我想改变图像中的白色 http www arso gov si vreme napovedi 20in 20podatki radar gif http www arso gov si vreme napovedi 20in 20podat
  • 在 Matlab 中高效获取像素坐标

    我想在 Matlab 中创建一个函数 给定一个图像 该函数将允许人们通过单击图像中的像素来选择该像素并返回该像素的坐标 理想情况下 人们能够连续单击图像中的多个像素 并且该函数会将所有相应的坐标存储在一个矩阵中 有没有办法在Matlab中做
  • PyTorch 中的数据增强

    我对 PyTorch 中执行的数据增强有点困惑 现在 据我所知 当我们执行数据增强时 我们保留原始数据集 然后添加它的其他版本 翻转 裁剪 等 但 PyTorch 中似乎并没有发生这种情况 据我从参考文献中了解到 当我们使用data tra
  • 如何确定透视变换后的点在新图像平面中的位置?

    我使用 OpenCV Python Numpy 图像中有三个点 我知道这些点的确切位置 P1 P2 N1 我要将图像转换为另一个视图 例如 我将透视图转换为侧视图 如果这样做 我将无法获得图像平面中这三个点的确切位置 我应该以一种可以获得这
  • GrabCut - bgdModel 和 fgdModel 为空 - 断言错误

    我正在尝试使用 OpenCV2 1 C 中的 GrabCut 算法进行图像分割 这是我的代码 Mat rgbWorkImage imread argv 1 Mat mask mask Scalar 0 Mat bgdModel fgdMod
  • 自动跟踪算法

    我正在尝试写一个simple跟踪例程来跟踪电影中的某些点 本质上我有一系列 100 帧长的电影 在黑暗背景上显示一些亮点 我每帧有大约 100 150 个点 它们在电影的过程中移动 我想跟踪它们 所以我正在寻找一些有效的 但可能不会过度实施
  • 解决相关代码的低 FPS 问题以计算图像中的偏移

    我正在尝试使用相关性来跟踪对象 我在较大的图像中逐帧找到较小的补丁 为此 我发现补丁中的变化 并且相关性最大的地方 用新补丁更新补丁 我的代码是 cv Mat im float 2 imagePart out cv Mat im float
  • Python 中的 Lanczos 插值与 2D 图像

    我尝试重新缩放 2D 图像 灰度 图像大小为 256x256 所需输出为 224x224 像素值范围从 0 到 1300 我尝试了两种使用 Lanczos 插值来重新调整它们的方法 首先使用PIL图像 import numpy as np

随机推荐

  • Android:ADT无法识别Nougat logcat的格式

    我有一个 旧 ADT Eclipse IDE for Android Developers 23 0 2 1259578 adtproduct 连接到 Nougat Pixel C ADT 无法正确读取 logcat 的格式 如以下屏幕截图
  • Azure 定价 API

    azure 是否有类似于 AWS 用于产品列表和定价目录的定价 api 例如 要获取 EC2 定价和产品目录 AWS 提供了JSON CSV 文件 想知道Azure是否有类似的东西 https prices azure com api re
  • 如何在 awk 表达式中使用变量

    我正在尝试执行这个命令 sed bla bla filename awk printf s s entry 3f 3f 3f 3f 1 3 4 5 6 7 但问题是 我希望 3f 部分是可变的 因此 在一种情况下 它可能是 3f 在另一种情
  • 处理带参数的点击手势 iphone / ipad

    当我的点击手势触发时 我需要发送一个额外的参数 但我一定做了一些非常愚蠢的事情 我在这里做错了什么 这是我正在创建和添加的手势 UITapGestureRecognizer tapGesture UITapGestureRecognizer
  • ProcessBuilder 不会停止

    我正在尝试使用 Linux 下的 ProcessBuilder 类将 mp3 文件解码为 wav 文件 由于某种原因 该过程不会停止 因此我必须手动取消它 有人可以给我一个提示吗 我认为引用的代码很容易重现 import java io p
  • 验证数学方程 C++ [关闭]

    Closed 这个问题需要多问focused 目前不接受答案 我目前正在尝试构建一个非常简单的编译器 我创建了一个函数 使用调车场算法将中缀表示法的数学方程转换为 RPN 但是我遇到了问题 我没有在转换函数中包含错误检查 因此我想知道是否有
  • 在 PHP 中的嵌套关​​联数组中搜索值并返回其路径

    我正在尝试在 PHP 中的嵌套关 联数组中搜索值 很像 array search 但嵌套 我需要导致该特定值的所有键 我没有看到任何关于此特定功能的帮助 所以现在我要问 其他示例似乎返回数组中的所有值 而不仅仅是单个键 值对的路径 func
  • MonoTouch Enterprise - 部署

    我们公司已开始构建用于企业部署的 MonoTouch iPad iPhone 应用程序 如何使用该应用程序并创建 ipa 文件以上传到我们的 MDM 服务器 ipa 文件基本上是一个美化的 zip 文件 您可以选择以下几条路线 将项目导出到
  • 带路径的 PHP 数组中的递归搜索

    我有这个干草堆数组 array name gt Intro id gt 123 children gt name gt foo id gt 234 children gt name gt mur id gt 445 name gt chap
  • 无法找到可安装的 ISAM 错误疑难解答

    我安装了 32 位 MS Office 2013 以及 32 位 Office 可再发行组件和一个设置为编译为 32 位的小型 C 控制台应用程序 以下代码会导致OleDbException提示 找不到可安装的 ISAM public vo
  • mysql_query 仅返回 int/fload 数据库类型的字符串类型

    我正在尝试处理 MySQL 选择结果 我的问题是下面的示例代码仅返回一个包含所有值的数组string 甚至对于包含整数和浮点数的列也要键入 sth mysql query selectstr rows array while r mysql
  • Rcpparmadillo :将 fastLM 对象转换为“lm”类型

    首先感谢您提供这么好的包裹 我希望对 fastLM 的输出运行 anova 但是 anova 只接受 lm 类型的对象 有没有办法将 fastLM 对象转换为 lm 对象 谢谢 S 首先 fastLM 存在是为了提供比lm 使其更快的方法之
  • “你好,世界!”遇到了意想不到的困难

    我想学习 Clojure 我已经下载并设置了以下小工具 Clojure 1 6 0 来自官方网站 莱宁根2 4 3 来自 GitHub 的苹果酒 0 6 0 我已经成功了 现在我正在尝试打印消息 Hello World 同时从 Emacs
  • Google 日历 API - 创建活动时邀请电子邮件不会发送给与会者

    我想使用 google api 将事件添加到 google 日历 但活动创建后 邀请电子邮件不会发送到与会者电子邮件列表 这是我的代码
  • python 正则表达式仅匹配第一个实例

    我有一个 python 代码 我正在读取证书并仅匹配根证书 例如 我的证书如下 begin certificate CZImiZPyLGQBGRYFbG9jYWwxGjAYBgoJkiaJk IasdasdassZAEZFgp2aXJ0dW
  • Android:多个警报不起作用

    在我的应用程序中 我设置了两个闹钟 在 ToogleButton 上 我将使用以下代码将其设置为打开 case R id toggleButtonTwoMonth myPrefs this getSharedPreferences myPr
  • 如何在内核中放置微秒延迟?

    我想放置微秒延迟Linux kernel 哪些函数支持它 需要添加什么头文件 你最好读书Documentation timers timers howto txt在linux内核源代码中 简而言之 您可以使用msleep unsigned
  • 为什么PWA提倡添加到主屏幕但只是创建chrome快捷方式而不是安装为apk?

    我检查所有添加到主屏幕条件 我想我在我的 PWA 中提供了所有这些 当用户访问我的 PWA 迷你信息栏时 当用户单击 添加到主屏幕 时 仅将 PWA 的快捷方式添加到主屏幕 但未安装 PWA 不在应用程序列表中 并且深层链接不起作用 UPD
  • SlimDX/DirectX9/C# - 如何访问纹理中的像素数据

    这是我在 StackOverflow 上遇到的第一个问题 万岁 我可以诚实地说 我每天都使用 StackOverflow 来处理我的工作和个人编程谜题 99 9 的情况下 我实际上也在这里找到了我需要的答案 这太棒了 我当前的问题实际上让我
  • 图像处理/超轻OCR

    我有 55 000 个图像文件 JPG 和 TIFF 格式 它们是书中的图片 每个页面的结构是这样的 一些文字 水平线 a number 一些文字 水平线 另一个号码 一些文字 任何给定页面上可以有 0 到 4 条水平线 我需要找到水平线下