Google Vision ocr:垂直和水平线文本识别

2023-12-29

我们正在使用 google Vision ocr 来收集收据中的文本。 在某些情况下,收据上有一些垂直书写的文本,例如增值税信息等。

问题是,谷歌视觉仅有效地读取主方向(例如水平方向)的文本,并丢弃在同一收据中以垂直方向而不是水平方向写入的所有文本。 是否需要设置一个参数来告诉谷歌视觉也获取垂直方向的文本?

我在网上放了一个示例,其中包含两个方向的文本图像。

https://drive.google.com/file/d/0B8kZz-q27lGGSUl5V3RjXzBLNnc/view?usp=sharing https://drive.google.com/file/d/0B8kZz-q27lGGSUl5V3RjXzBLNnc/view?usp=sharing

从 g-vision 识别的文本:水平文本行

我期望被识别的文本:水平文本行 垂直文本行


我知道这是迟到的回应,也许将来有人会从中受益...... 您可以通过在应用检测器之前进行框架旋转来强制检测器仅识别垂直文本,如下所示: 在 CameraSource 的 setRotation() 方法中。写:

outputFrame = new Frame.Builder()
                        .setImageData(mPendingFrameData, 
                          mPreviewSize.getWidth(),
                                mPreviewSize.getHeight(), 
                         ImageFormat.NV21)
                        .setId(mPendingFrameId)
                        .setTimestampMillis(mPendingTimeMillis)
                        .setRotation(mRotation)
                        .build();
mRotation = 2; (for vertical text direction from bottom to top)
mRotation = 1; (for vertical text direction from top to bottom)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Google Vision ocr:垂直和水平线文本识别 的相关文章

  • 为什么用 PIL 和 pytesseract 无法获取字符串?

    这是一个简单的Python 3光学字符识别 OCR 程序来获取字符串 我已经在这里上传了目标gif文件 请下载并另存为 tmp target gif try from PIL import Image except ImportError
  • 神经网络特征提取

    我正在使用神经网络进行字母和数字的简单识别 到目前为止 我使用字母图像的每个像素作为网络的输入 不用说 这种方法产生的网络非常大 所以我想从图像中提取特征并将它们用作神经网络的输入 我的第一个问题是字母的哪些属性有利于识别它们 第二个问题是
  • 超正方体的替代方案

    Python 或 OpenCV 中是否有替代软件或任何库可以替代 Tesseract 进行字符识别 有什么建议的可以用Python实现的字符识别方法吗 Thanks This site https github com kba awesom
  • OCR 处理前的图像预处理

    我当前的项目涉及将 pdf 中的文本转录为文本文件 我首先尝试将图像文件直接放入 OCR 程序 tesseract 中 但效果不佳 原始图像文件基本上是旧报纸 并且有一些背景噪音 我确信 tesseract 存在问题 因此 我尝试在将图像输
  • Android 中最好的 OCR(光学字符识别)示例 [关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 我想要一个在android中运行OCR的例子 我做了一些研究并找到了一个在android中实现OCR的例子 https github co
  • OCR 解决方案可以检测数字手写体吗?

    有没有一种解决方案可以很好地书写数字 1 10 我尝试了超正方体 但我只得到垃圾 理想情况下是 OSS 但商业也可以 OpenCV 现在附带手写数字识别 OCR 示例 你可以参考一下 http code opencv org project
  • 使用谷歌移动视觉 API 检测第一个条形码并将数据发送到另一个活动

    您好 我在 github 上检查了来自 google 的条形码阅读器示例 我试图让条形码检测器检测第一个条形码 只有一个 当它检测到时 它将解码的条形码发送到另一个活动 Mabye 我错了 但我需要输入这段代码 BarcodeGraphic
  • Google 云视觉 Web 检测 API 仅返回 10 个响应

    我正在使用 Google 云视觉 Web 检测 API 来检测图像的使用位置 但即使是 Google 的徽标 我也总是最多收到 10 个回复 是 API 的限制还是我遗漏了一些东西 因为文档中没有提到任何内容 Cloud Vision AP
  • Tess-2 OCR 不工作

    我试图在 Android 上使用 tess two 从图像中获取文本 但这给了我一个非常糟糕的结果 01 16 12 00 25 339 I Tesseract native 29038 Initialized Tesseract API
  • 使用贝叶斯类进行数字识别

    我需要编写一个仅用于数字的 OCR 程序 我将使用 MNIST 数据集 问题是我不知道从哪里开始 有很多论文并没有真正解释算法 我对模式识别真的了解不多 所以我有几个问题 Q1 在哪里可以找到算法 或教程 Q2 如何对数字进行分类 我不需要
  • unicharset_extractor:找不到命令

    我想使用超正方体创建新的列车数据 因此 请按照以下网站中提到的步骤进行操作 https blog cedric ws how to train tesseract 301 https blog cedric ws how to train
  • Windows 7 OCR API

    我一直在审查 Office 2007 MODI OCR 的替代品 OneNote 2010 解决方案的质量 结果低于 2007 我注意到 一旦您安装了可选 tiff 过滤器 http technet microsoft com en us
  • 为什么 pytesseract 导致 AttributeError: 'NoneType' 对象没有属性 'bands'?

    我正在尝试开始使用 pytesseract 但正如你在下面看到的 我遇到了问题 我发现人们遇到了似乎相同的错误 他们说这是 PIL 1 1 7 中的错误 其他人说这个问题是由于 PIL 懒惰造成的 需要强制 PIL 加载图像im load
  • pytesseract 错误 Windows 错误 [错误 2]

    您好 我正在尝试使用 python 库 pytesseract 从图像中提取文本 请查找代码 from PIL import Image from pytesseract import image to string print image
  • 裁剪图像后,如何找到新的边界框坐标?

    这是我得到的收据图像 我使用 matplotlib 绘制了它 x1 y1 x2 y2 x3 y3 x4 y4 bbox coords 650 850 1040 850 1040 930 650 930 image cv2 imread IM
  • Tesseract OCR - 手写字体

    我正在尝试使用Tesseract OCR http code google com p tesseract ocr 检测其中包含纯文本的图像文本 但这些文本具有名为的手写字体Journal Example 结果不是最好的 千里马 尺寸 宽
  • 如何从灰度字节缓冲区图像创建位图?

    我正在尝试使用新的 Android 人脸检测移动视觉 API 来处理帧图像 所以我创建了自定义检测器来获取帧并尝试调用 getBitmap 方法 但它为空 所以我访问了帧的灰度数据 有没有办法从它或类似的图像持有者类创建位图 public
  • 如何从图像生成 tiff/box 文件以在 Windows 中训练 Tesseract

    我正在尝试在 Windows 中训练 Tesseract 为此我需要一对 tiff box 文件 并且我正在尝试使用 jTessBoxEditor 创建它 但它不接受图像作为输入 我也尝试过 boxFactory 但它无法正常运行 有谁知道
  • 从笔记本中提取文本

    我正在尝试从图像中提取手写文本 我使用 python 和 opencv 函数 例如 find contours 当我使用像这样的图像时 一切进展顺利 它工作得很好 因为我有一个简单的背景 但后来我用这张图片测试了它 由于背景中有笔记本的线条
  • 使用 Tesseract 进行手写识别

    我只是想知道 如果将大写字母全部放在表格中自己的小框中 那么超正方体的手写识别准确度有多高 我知道你可以训练它来识别你自己的笔迹 但我的问题是我需要在多个笔迹中使用它 有人能指出我正确的方向吗 多谢 简而言之 您必须训练 Tesseract

随机推荐

  • probe_success 和 up 之间的区别?

    有什么区别probe success and up 我看到各种示例 其中基于其中任何一个来完成警报 例如站点关闭 实例关闭 我错过了什么吗 up指示 Prometheus 是否可以与目标 例如黑盒导出器 对话并成功抓取目标 probe su
  • 如何将 bcp 实用程序与 oracle dB 或任何其他更好的选项一起使用

    我有一个 csv 文件 必须批量导入到 oracle dB 我之前正在研究其他 sybase dB 引擎 因此我有一个示例脚本 其中包含它的环境设置 现在我必须在 oracle dB 中执行该过程 所以第一行应该是什么我知道其余的其他参数
  • 使用 colspan 将粘性位置固定在 上?

    这好像是sticky不起作用 td with colspan 有办法解决吗 body font family Lucida Grande div width 500px height 200px overflow scroll td th
  • 是否有编译器开关可以关闭 C# 中对泛型的支持?

    我正在与一位合作伙伴合作 尝试将复杂的驱动程序从 NET 平台迁移到 NET MicroFramework 问题是 NET MF 不支持泛型 当我们尝试构建应用程序时 最后一个 链接 操作会退出并显示错误代码 CLR E PARSER UN
  • Eclipse:哪些 HTML 和 Javascript 插件?

    您使用哪些插件在 Eclipse 3 5 中编辑 带语法突出显示 HTML 和 Javascript Spket http spket com 是一个很棒的 JavaScript 插件 对于 HTML 我通常只使用附带的默认 XML HTM
  • jQuery 同位素插件水平滚动

    fiddle http jsfiddle net xKjUv 19 只是想让它水平滚动文档示例 http isotope metafizzy co docs layout modes html 我不知道为什么它不起作用 container
  • Apache Spark SQL 需要很长时间才能计算 Cassandra 中的十亿行吗?

    我有以下代码 我按如下方式调用 Spark Shell spark shell conf spark cassandra connection host 170 99 99 134 executor memory 15G executor
  • 无法使用 SSMS 通过 Windows 身份验证连接到本地 SQL Server

    我正在尝试使用 SSMS 使用 Windows 身份验证登录到安装在 Windows 7 上的本地 SQL Server 2005 我尝试使用各种服务器名称 例如 localhost SQL ANANTH PC etc 当我尝试时出现此错误
  • Wordpress ACF - 日期格式

    我使用日期字段将日期呈现为 11 15 2014 但我还想在页面的其他位置显示日期 例如 2014 年 11 月 15 日 是否可以以两种不同的格式呈现日期 您可以使用get field然后您可以将日期格式更改为您想要的任何格式 date
  • ES6 Promise 中的数据只有在我点击它之后才会呈现在页面上?

    我在我的应用程序中使用 Ionic 并连接到 Firebase 来提取数据 我在工厂中创建了一个承诺 将数据拉下来 并认为一旦完成 它应该在屏幕上呈现数据 但在触摸屏幕之前我什么也得不到 我没有收到任何错误 数据确实出现了 Factory
  • jpa 实体 bean 的默认范围是什么?它有什么帮助?

    我的项目中的所有实体 bean 看起来都是这样的 我想知道对实体使用 scope prototype 的意义是什么 Component Scope prototype Entity Table name SOME BEAN SOME CON
  • 如何在iPhone锁屏状态下开始播放音乐

    我在用UILocalNotification如果应用程序未运行 则提醒用户MPMusicPlayerController播放 iPod 音乐和MPMoviePlayerController播放广播流 url 根据苹果文档 如果 iPhone
  • 以编程方式使用尺寸类别

    我 希望 观看了所有相关的 WWDC2014 会议视频并阅读了文档 所以这个问题主要是为了证实我的怀疑 但请赐教 我想做的是使用自动布局为视图添加动画效果 这本身并不是问题 但这些动画的端点随着不同的方向而变化 我想我也许可以使用尺寸类来自
  • 无法配置 Firebase InstanceID

    您好 我正在尝试在我的应用程序中包含 firebase 并遵循文档 当我尝试进行 google 登录时 出现无法配置 Firebase InstanceID 错误 请建议如何克服此错误 有两件事需要检查 希望其中一项能为您解决 确保您的捆绑
  • 无法从 Xcode 运行 Instruments

    我最近升级到 Snow Leopard 从那以后我很难运行 Instrument 来从 Xcode 检测我的应用程序 录制 按钮将变灰 并且什么也不会发生 Xcode 的控制台中也没有消息告诉我出了什么问题 我曾经能够将其附加到进程或从仪器
  • 如何使用 jQuery 在 IE 中附加样式表?

    大家好 我只是想创建一个插件 我需要它对用户友好 所以我想append the 标签上的head加载我的插件时用户页面的一部分 它适用于所有其他浏览器 不确定 IE9 IE7 和 IE6 但不适用于 IE8 我不知道我的插件出了什么问题 所
  • 在 CakePHP 中重写 php 应用程序

    因此 我很想使用 php 框架重写我的应用程序 因为我认为这会让人们更容易参与 并改进应用程序的设计 CakePHP 看起来是最好的 PHP Web 框架 有人有这方面的经验吗 从手动编写 PHP 到使用框架 我应该考虑哪些注意事项 不取决
  • 写入 Mac OS X 10.7 中的“~/Library/Application Support”文件夹

    我可以使用 NSFileManager 在 Mac OS X 10 5 和 10 6 中的 Library Application Support 中创建 XYZ 文件夹 然而 在 10 7 中 它显示 您无权将 XYZ 保存在文件夹 应用
  • Enterprise Library 5.0 - 将自定义标记添加到 TextFormatter

    我创建了一个自定义异常 其中包含与我们的应用程序相关的数据 我想确保在引发异常时记录这些数据并将其记录到事件日志中 我尝试创建一个正在调用的自定义 TextFormatter 但不确定如何访问当前异常 以便我可以将自定义信息添加到日志条目中
  • Google Vision ocr:垂直和水平线文本识别

    我们正在使用 google Vision ocr 来收集收据中的文本 在某些情况下 收据上有一些垂直书写的文本 例如增值税信息等 问题是 谷歌视觉仅有效地读取主方向 例如水平方向 的文本 并丢弃在同一收据中以垂直方向而不是水平方向写入的所有