Google Vision ocr：垂直和水平线文本识别

2023-12-29

我们正在使用 google Vision ocr 来收集收据中的文本。在某些情况下，收据上有一些垂直书写的文本，例如增值税信息等。

问题是，谷歌视觉仅有效地读取主方向（例如水平方向）的文本，并丢弃在同一收据中以垂直方向而不是水平方向写入的所有文本。是否需要设置一个参数来告诉谷歌视觉也获取垂直方向的文本？

我在网上放了一个示例，其中包含两个方向的文本图像。

https://drive.google.com/file/d/0B8kZz-q27lGGSUl5V3RjXzBLNnc/view?usp=sharing https://drive.google.com/file/d/0B8kZz-q27lGGSUl5V3RjXzBLNnc/view?usp=sharing

从 g-vision 识别的文本：水平文本行

我期望被识别的文本：水平文本行 垂直文本行

我知道这是迟到的回应，也许将来有人会从中受益...... 您可以通过在应用检测器之前进行框架旋转来强制检测器仅识别垂直文本，如下所示：在 CameraSource 的 setRotation() 方法中。写：

outputFrame = new Frame.Builder()
                        .setImageData(mPendingFrameData, 
                          mPreviewSize.getWidth(),
                                mPreviewSize.getHeight(), 
                         ImageFormat.NV21)
                        .setId(mPendingFrameId)
                        .setTimestampMillis(mPendingTimeMillis)
                        .setRotation(mRotation)
                        .build();
mRotation = 2; (for vertical text direction from bottom to top)
mRotation = 1; (for vertical text direction from top to bottom)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

OCR

googlevision

textrecognition

Google Vision ocr：垂直和水平线文本识别的相关文章

超正方体的替代方案

Python 或 OpenCV 中是否有替代软件或任何库可以替代 Tesseract 进行字符识别有什么建议的可以用Python实现的字符识别方法吗 Thanks This site https github com kba awesom
opencv 中的二值化和背景过滤

不久我想在OCR之前进行预处理程序建议来自ABBYY的技术 http www abbyy developers eu en tech insideocr adaptive binarisation 文章分为两部分 Background
了解 OCR 的 Freeman 链码

请注意我确实在寻找问题的答案我是not寻找一些源代码或一些学术论文的链接我已经使用了源代码并且我已经阅读了论文但仍然没有弄清楚这个问题的最后部分我正在研究一些快速屏幕字体 OCRing 并且取得了很好的进展我已经找到基线分离
目录：资产/tessdata

我从 github 下载了 OCR 文本识别器我的问题是我想在不在线的情况下启动我的应用程序但每次我在手机上安装 apk 时它都会开始下载英语和 tesseract OCR 引擎我找到了一个在线指南其中说我必须在资产文件夹中创建
使用 Google App Script 从 google 驱动器中进行 OCR 图像

我已经实现了以下脚本使用图像 URL 对单个和多个图像进行 OCR function doOCRALL var selected SpreadsheetApp getActiveSheet getActiveRange getValues
Pytesseract 对于实时 OCR 来说非常慢，有什么方法可以优化我的代码吗？

我正在尝试使用 python 创建实时 OCRmss and pytesseract 到目前为止我已经能够捕获整个屏幕其 FPS 稳定为 30 如果我想捕获大约 500x500 的较小区域我已经能够获得 100 FPS 然而一旦我包
Tesseract 对阿拉伯语单词/字母不返回任何内容

我已经安装了 Pytesseract 它可以完美地处理法语英语文本以及数字但是当我尝试阅读任何阿拉伯文本字母时它不会返回任何内容这是我使用过的代码 try from PIL import Image except ImportEr
使用 python 和 opencv 检测图像中的文本区域

我想使用 python 2 7 和 opencv 2 4 9 检测图像的文本区域并在其周围画一个矩形区域就像下面的示例图片所示我对图像处理很陌生所以任何想法如何做到这一点将不胜感激有多种方法可以检测图像中的文本我建议看看这个问题
什么是可以检测手写的好的 OCR？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我需要一个库可以在扫描手写纸后从其中提取文本正常拉丁文本它可以是一个免费的解决方案甚至是我必须付费的解决方案只要它可以处理大写字
使用 google mlkit 视觉样本减少跟踪窗口

我想在使用 google Vision api 时减少减少条形码跟踪窗口有一些答案here https stackoverflow com questions 36405717 android vision reduce bar code
Python Tesseract 无法识别这种字体

我有这个图像我想使用 python 将其读取为字符串我认为这并不难我发现了 tesseract 然后是使用 tesseract 的 python 脚本的包装器所以我开始阅读图像效果很好直到我尝试阅读这张图像我是否需要训练它来读
如何使用 Google Vision API 对 Base64 编码图像进行文本检测？

我有一个 Base64 编码的图像 imageData data image png base64 iVBORw0rrfwfwHReger32QRQWr 我应该如何使用谷歌云视觉Python库进行文本检测我的代码如下所示 from goo
Google Vision API 文本识别器无法正常工作

我使用 Google Vision API 来读取报纸等任何物体上的文本或墙上的文本我已经尝试过来自 Google 开发者网站的相同示例但我的文本识别器总是返回 falseIsOperational功能我在 Blackberry ke
OCR 解析获取复选框或单选按钮值

I need to parse OCR image file and get all texts and checkbox values How to get Checkbox or Radio Button value from OCR
OCR 扑克牌 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我决定做一个有趣的项目我想将扑克牌的图像作为输入并返回其等级和花色我认为我只需要查看左上角因为那里包含了所有信息它应该是稳健的
裁剪图像后，如何找到新的边界框坐标？

这是我得到的收据图像我使用 matplotlib 绘制了它 x1 y1 x2 y2 x3 y3 x4 y4 bbox coords 650 850 1040 850 1040 930 650 930 image cv2 imread IM
使用 Tesseract OCR 和 python 进行数字识别

我使用 Tesseract 和 python 读取数字从能量计除了数字 1 之外一切都运行良好 Tesseract 无法读取 1 数字 This is the picture I send to tesseract tesseract
收据褪色部分可以恢复吗？

我有一些包含一些扫描收据的文件我需要使用 OCR 从中提取文本由于收据上打印的文字在一段时间后会褪色导致收据上的某些文字不清晰影响OCR结果褪色单词的一些示例有什么方法可以恢复褪色的部分以便提高 OCR 结果吗我在OpenC
用Python识别图像

我对 OCR 识别和 Python 都有点陌生我想要实现的是从 Python 脚本运行 Tesseract 以识别 tif 中的某些特定数字我以为我可以为 Tesseract 做一些培训但我在 Google 和 SO 上没有找到任何
Tesseract OCR - 手写字体

我正在尝试使用Tesseract OCR http code google com p tesseract ocr 检测其中包含纯文本的图像文本但这些文本具有名为的手写字体Journal Example 结果不是最好的千里马尺寸宽

随机推荐

probe_success 和 up 之间的区别？

有什么区别probe success and up 我看到各种示例其中基于其中任何一个来完成警报例如站点关闭实例关闭我错过了什么吗 up指示 Prometheus 是否可以与目标例如黑盒导出器对话并成功抓取目标 probe su
如何将 bcp 实用程序与 oracle dB 或任何其他更好的选项一起使用

我有一个 csv 文件必须批量导入到 oracle dB 我之前正在研究其他 sybase dB 引擎因此我有一个示例脚本其中包含它的环境设置现在我必须在 oracle dB 中执行该过程所以第一行应该是什么我知道其余的其他参数
使用 colspan 将粘性位置固定在上？

这好像是sticky不起作用 td with colspan 有办法解决吗 body font family Lucida Grande div width 500px height 200px overflow scroll td th
是否有编译器开关可以关闭 C# 中对泛型的支持？

我正在与一位合作伙伴合作尝试将复杂的驱动程序从 NET 平台迁移到 NET MicroFramework 问题是 NET MF 不支持泛型当我们尝试构建应用程序时最后一个链接操作会退出并显示错误代码 CLR E PARSER UN
Eclipse：哪些 HTML 和 Javascript 插件？

您使用哪些插件在 Eclipse 3 5 中编辑带语法突出显示 HTML 和 Javascript Spket http spket com 是一个很棒的 JavaScript 插件对于 HTML 我通常只使用附带的默认 XML HTM
jQuery 同位素插件水平滚动

fiddle http jsfiddle net xKjUv 19 只是想让它水平滚动文档示例 http isotope metafizzy co docs layout modes html 我不知道为什么它不起作用 container
Apache Spark SQL 需要很长时间才能计算 Cassandra 中的十亿行吗？

我有以下代码我按如下方式调用 Spark Shell spark shell conf spark cassandra connection host 170 99 99 134 executor memory 15G executor
无法使用 SSMS 通过 Windows 身份验证连接到本地 SQL Server

我正在尝试使用 SSMS 使用 Windows 身份验证登录到安装在 Windows 7 上的本地 SQL Server 2005 我尝试使用各种服务器名称例如 localhost SQL ANANTH PC etc 当我尝试时出现此错误
Wordpress ACF - 日期格式

我使用日期字段将日期呈现为 11 15 2014 但我还想在页面的其他位置显示日期例如 2014 年 11 月 15 日是否可以以两种不同的格式呈现日期您可以使用get field然后您可以将日期格式更改为您想要的任何格式 date
ES6 Promise 中的数据只有在我点击它之后才会呈现在页面上？

我在我的应用程序中使用 Ionic 并连接到 Firebase 来提取数据我在工厂中创建了一个承诺将数据拉下来并认为一旦完成它应该在屏幕上呈现数据但在触摸屏幕之前我什么也得不到我没有收到任何错误数据确实出现了 Factory
jpa 实体 bean 的默认范围是什么？它有什么帮助？

我的项目中的所有实体 bean 看起来都是这样的我想知道对实体使用 scope prototype 的意义是什么 Component Scope prototype Entity Table name SOME BEAN SOME CON
如何在iPhone锁屏状态下开始播放音乐

我在用UILocalNotification如果应用程序未运行则提醒用户MPMusicPlayerController播放 iPod 音乐和MPMoviePlayerController播放广播流 url 根据苹果文档如果 iPhone
以编程方式使用尺寸类别

我希望观看了所有相关的 WWDC2014 会议视频并阅读了文档所以这个问题主要是为了证实我的怀疑但请赐教我想做的是使用自动布局为视图添加动画效果这本身并不是问题但这些动画的端点随着不同的方向而变化我想我也许可以使用尺寸类来自
无法配置 Firebase InstanceID

您好我正在尝试在我的应用程序中包含 firebase 并遵循文档当我尝试进行 google 登录时出现无法配置 Firebase InstanceID 错误请建议如何克服此错误有两件事需要检查希望其中一项能为您解决确保您的捆绑
无法从 Xcode 运行 Instruments

我最近升级到 Snow Leopard 从那以后我很难运行 Instrument 来从 Xcode 检测我的应用程序录制按钮将变灰并且什么也不会发生 Xcode 的控制台中也没有消息告诉我出了什么问题我曾经能够将其附加到进程或从仪器
如何使用 jQuery 在 IE 中附加样式表？

大家好我只是想创建一个插件我需要它对用户友好所以我想append the 标签上的head加载我的插件时用户页面的一部分它适用于所有其他浏览器不确定 IE9 IE7 和 IE6 但不适用于 IE8 我不知道我的插件出了什么问题所
在 CakePHP 中重写 php 应用程序

因此我很想使用 php 框架重写我的应用程序因为我认为这会让人们更容易参与并改进应用程序的设计 CakePHP 看起来是最好的 PHP Web 框架有人有这方面的经验吗从手动编写 PHP 到使用框架我应该考虑哪些注意事项不取决
写入 Mac OS X 10.7 中的“~/Library/Application Support”文件夹

我可以使用 NSFileManager 在 Mac OS X 10 5 和 10 6 中的 Library Application Support 中创建 XYZ 文件夹然而在 10 7 中它显示您无权将 XYZ 保存在文件夹应用
Enterprise Library 5.0 - 将自定义标记添加到 TextFormatter

我创建了一个自定义异常其中包含与我们的应用程序相关的数据我想确保在引发异常时记录这些数据并将其记录到事件日志中我尝试创建一个正在调用的自定义 TextFormatter 但不确定如何访问当前异常以便我可以将自定义信息添加到日志条目中
Google Vision ocr：垂直和水平线文本识别

我们正在使用 google Vision ocr 来收集收据中的文本在某些情况下收据上有一些垂直书写的文本例如增值税信息等问题是谷歌视觉仅有效地读取主方向例如水平方向的文本并丢弃在同一收据中以垂直方向而不是水平方向写入的所有

Google Vision ocr：垂直和水平线文本识别

Google Vision ocr：垂直和水平线文本识别 的相关文章

随机推荐

热门标签

Google Vision ocr：垂直和水平线文本识别的相关文章