训练 Tesseract 特定单词 - 可能吗？

2024-01-10

我想使用 Tesseract 从文档中提取大约 10-20 个关键字。该文档将包含所有英文字符/单词。我感兴趣的是“年龄：23”之类的东西。这里 Age 是我感兴趣的关键字，也想提取 23 （它的值）。

我想到的第一个方法是将整个页面提取为文本，然后在识别的文本中查找关键字。但是在训练超立方体方面，如果我知道关键字，是否有更好的方法，这可能会带来更好的准确性？

我或多或少意识到 Tesseract OCR 的局限性。尝试在限制范围内最大化。感谢您提供的所有专家建议。

Try bazaar https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc#config-files-and-augmenting-with-user-dataTesseract 中的匹配模式。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

OCR

Tesseract

训练 Tesseract 特定单词 - 可能吗？的相关文章

Windows 7 OCR API

我一直在审查 Office 2007 MODI OCR 的替代品 OneNote 2010 解决方案的质量结果低于 2007 我注意到一旦您安装了可选 tiff 过滤器 http technet microsoft com en us
pytesseract找不到指定的文件

我的代码很简单如下所示 import pytesseract from PIL import Image img Image open C temp foo jpg img load i pytesseract image to stri
图像中的文本检测

I am using below sample code for text detection in images not handwritten using coreml and vision https github com DrNeu
让 tesseract 只识别数字

我正在尝试改进我制作的 OCR 程序来读取我正在使用的某个图像的布局现在我希望我的 OCR 程序只能识别数字 0 9 我尝试遵循问题的解决方案限制 tesseract 正在寻找的字符 https stackoverflow com q
断言失败 - 训练 Tesseract

我正在尝试使用 Serak Tesseract Trainer 训练 tesseract https code google com p serak tesseract trainer https code google com p ser
使用背景校正图像 (Python)

我正在开发一个项目对标签上的文本进行 OCR 操作我的工作是对图像进行倾斜校正使其可以用超正方体读取 I have been using this approach https www pyimagesearch com 2017 0
OCR 解析获取复选框或单选按钮值

I need to parse OCR image file and get all texts and checkbox values How to get Checkbox or Radio Button value from OCR
有没有办法在 venv/web 服务器中安装 Tesseract OCR？

我制作了一个执行 OCR 功能的 Python 脚本然后回收了该脚本并使用 Flask 制作了一个 Web 应用程序 Web 应用程序及其库位于 virtualenv 中但该应用程序使用操作系统 Windows 中安装的 Tessera
OCR 扑克牌 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我决定做一个有趣的项目我想将扑克牌的图像作为输入并返回其等级和花色我认为我只需要查看左上角因为那里包含了所有信息它应该是稳健的
使用 python 突出显示图像中的特定文本

我想突出显示网站屏幕截图中的特定单词句子截取屏幕截图后我使用提取文本pytesseract and cv2 效果很好我可以获得有关它的文本和数据 import pytesseract import cv2 if name main
收据褪色部分可以恢复吗？

我有一些包含一些扫描收据的文件我需要使用 OCR 从中提取文本由于收据上打印的文字在一段时间后会褪色导致收据上的某些文字不清晰影响OCR结果褪色单词的一些示例有什么方法可以恢复褪色的部分以便提高 OCR 结果吗我在OpenC
将姓名拆分为名字和姓氏 Java（Android OCR）[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我使用本机 Android JAVA 创建了一个 OCR 光学字符识别应用程序我可以将图像转换为文本视图但是我如何使用这些词分别识别名
如何从图像生成 tiff/box 文件以在 Windows 中训练 Tesseract

我正在尝试在 Windows 中训练 Tesseract 为此我需要一对 tiff box 文件并且我正在尝试使用 jTessBoxEditor 创建它但它不接受图像作为输入我也尝试过 boxFactory 但它无法正常运行有谁知道
在Tomcat中设置环境变量TESSDATA_PREFIX

我们正在使用名为 Tess4J 的 Tesseract OCR Java 库如果作为独立应用程序运行它可以正常工作它需要一个名为 TESSDATA PREFIX 的变量其中包含 tessdata 配置和其他字符集相关文件它也可以与
如何在 Ubuntu/Linux 发行版中安装 Tesseract-OCR 3.03？

我和一个朋友有兴趣为 CV 项目训练 tesseract OCR 引擎我们尝试使用一些包装器例如 PyTesser 和 pyocr 但结果目前不如我们需要的那么准确因此我们希望尝试训练超立方体以更好地实现我们的目的即识别食品标签上
来自 Google Vision API OCR 的响应 400，带有指定图像的 base64 字符串

我读了如何使用 Google Vision API 对 Base64 编码图像进行文本检测 https stackoverflow com questions 43094048 how to use the google vision ap
无法将 Tesseract OCR 模块添加到 Android Studio

我按照此处找到的分步指南进行操作 https www codeproject com Articles 840623 Android Character Recognition https www codeproject com Artic
找不到仅适用于数字的 Tesseract 4.0 tessdata

正如这篇文章中所说 pytesseract 仅使用 tesseract 4 0 数字不起作用 https stackoverflow com questions 46574142 pytesseract using tesseract 4
如何从复杂的验证码中提取数字

我正在尝试解析下图的验证码 https ibb co 35X723J https ibb co 35X723J 我尝试过使用超正方体 data br open captchaurl read b bytearray data save op
从超立方体图像中获取文本的确切位置

使用 tesseract 中的 GetHOCRText 0 方法我能够检索 html 中的文本并在 webview 中呈现 html 时我能够获取文本但图像中文本的位置与输出不同任何想法都非常有帮助 tesseract gt Se

随机推荐

我可以获得构建 C++ 可执行文件 (gcc) 时链接的所有库的报告吗？（包括静态链接）

我有一个继承的 C 应用程序其中包含我的主要应用程序几个特定于应用程序的库 libapp1 libapp2 等几个第三方库大多数第三方只是公司中的其他团队从主应用程序特定于应用程序的 libappX 库以及其他第三部分库
UpdateSource 无法在 CoerceValueCallback 中工作

我的总体目标是创建一个 TwoWay Attached DependencyProperty 或 OneWayToSource 始终将其绑定源更新为特定值在我的现实世界场景中这是一个不恒定的对象取决于它所附加的对象我的示例涉及以下模
Rails 2：使用form_for构建覆盖同一类的多个对象的表单

对于 Rails 专家来说这有望是一个灌篮我有一个应该迭代一组的表单LineItems并收集有关每个的信息我想得到form for and fields for创建正确的字段名称和参数为我的控制器提供一个参数哈希例如 params
禁用 Android 中的主页按钮

我在我的活动中添加此代码 public boolean onKeyDown int keyCode KeyEvent event if keyCode KeyEvent KEYCODE HOME return false return su
使用 Struts 2 中的拦截器进行身份验证后登录重定向

我有一个登录页面登录请求可以来自多个操作类一旦用户经过验证我必须将其重定向到上一个操作类登录请求来自该操作类我正在使用拦截器来执行此操作但我错过了一些东西它无法正确重定向这是我的代码 public class SetTarg
Windows Phone：按下后退按钮时，IE 或 Edge 中缺少模糊事件

以下场景与 Windows Phone 设备 IE 或 Edge 相关场景一如果输入元素具有焦点并且软键盘处于打开状态则按硬件后退键会模糊焦点元素并按应有的方式弹出键盘但是没有触发相应的模糊事件场景2 如果输入元素具有焦点并且软
libpcap 用于捕获 10 Gbps NIC

我想从10Gbps网卡上抓包 0丢包我正在将 lipcap 用于 100Mbps NIC 并且工作正常 libpcap 能够处理 10Gbps NIC 流量吗如果不是还有什么其他替代方法可以实现这一目标 libpcap 是否能够以 0
如何找到进程的入口点（或基地址） - 处理 ASLR

由于ASLR 地址空间布局随机化自Windows Vista起 exe的基地址是随机的因此无法在PE文件中找到它在 Visual C 中 DYNAMICBASE 选项默认启用因此基地址 exe 的运行是随机的每次加载程序加载它时
Socket.SendAsync 需要几秒钟才能完成

我正在尝试优化 TCP 套接字包装器该包装器正在处理大量入站连接我正在一个基本的聊天服务器和一个小型客户端应用程序中测试它以将客户端发送到它这两个应用程序都位于通过千兆位交换机连接的单独 W2k3 服务器上通过反复试验我将测试改
如何比较postgres中的两个表

我想比较来自两个不同查询的两个列值谁能建议一个比较 Postgres 中两列的查询嗯最容易理解的但不一定是最快的可能是这样的但你所说的比较可能还有其他意思 Values in column1 that aren t in c
子进程调用 ls 时出错

知道错误想说什么吗 Traceback most recent call last File
Jquery - 是否可以重命名 js 函数？

希望可以有人帮帮我我有一个类似的功能是否可以将此函数重命名或克隆为my test 2 提前致谢 Peter 功能有一流的物体 http en wikipedia org wiki First class object在 JavaSc
如何更改 Vuetify v-autocomplete 菜单边框半径样式？

我想改变盒子的样式v autocomplete下拉列表并给出border radius样式到下拉列表如下图所示到目前为止我设计的内容如下图所示到目前为止我已经将 menu props 属性直接赋予v autocomplete tag
在Powershell中，有没有办法将html转换为具有深度的对象？

我正在使用 Powershell 来试验网络抓取想知道是否有更简单的方法来处理元素有没有办法将 Html 页面转换为 powershell 中具有适当深度的对象类似于 Convert ToJson Depth 的东西吗例如要得到某
Eclipse 条件断点，在任何字符串等于处断点

我有一个大型遗留应用程序我必须对其进行修复其代码结构很糟糕代码味道太多让我窒息我真的无法弄清楚 gui 中的字符串填充在哪里因此如果我能以某种方式在任何字符串我不知道变量的名称或它在哪里等于 foobar 时有一个表达
如何使用 Python 自动杀死占用过多内存的进程？

情况我有一个网站允许人们执行任意代码用另一种语言具体来说是我创建的 esolang 在共享托管服务器上使用 Python 解释器我在一个单独的进程中运行此代码该进程的时间限制为 60 秒问题你可以做类似的事情 Python等
msbuild 从属性组创建项目组

我想传递一个以分号分隔的字符串列表每个字符串代表一个文件名
为什么我永远不应该使用不安全的块来修改字符串？

我有一个字符串我想以某种方式修改它例如反转或大写我发现最快的方法是使用不安全的块和指针例如 unsafe fixed char str text str X 有什么理由让我永远不应该这样做吗 Net 框架要求字符串是不可变的由于
自定义 Seaborn histplot 子图中的图例

我正在尝试生成一个包含 4 个子图的图形每个子图都是 Seaborn 直方图图形定义线为 fig axes plt subplots 2 2 figsize 6 3 7 sharex True sharey True ax1 ax2 a
训练 Tesseract 特定单词 - 可能吗？

我想使用 Tesseract 从文档中提取大约 10 20 个关键字该文档将包含所有英文字符单词我感兴趣的是年龄 23 之类的东西这里 Age 是我感兴趣的关键字也想提取 23 它的值我想到的第一个方法是将整个页面提取为文本

训练 Tesseract 特定单词 - 可能吗？

训练 Tesseract 特定单词 - 可能吗？ 的相关文章

随机推荐

热门标签

训练 Tesseract 特定单词 - 可能吗？的相关文章