使用python进行Pytesseract外语提取

2023-11-23

我在 Windows 机器上使用 Python 2.7、Pytesseract-0.1.7 和 Tesseract-ocr 3.05.01。

我尝试提取韩语和俄语的文本，并且我确信我提取了。

现在我需要将字符串与从图像中提取的字符串进行比较。

我无法比较字符串并获得正确的结果，它只是说不匹配。

这是我的代码：

# -*- coding: utf-8 -*-
from PIL import Image
import pytesseract
import argparse
ap = argparse.ArgumentParser()
ap.add_argument("-i", "--input", required=True, help="path to the image")
args = vars(ap.parse_args())
img = Image.open(args["input"])
img.load()
text = pytesseract.image_to_string(img)
print(text)
text = text.encode('ascii')
print(text)
i = 'Сред. Скорость'
print i
if ( text == i):
    print "Match"
else :
    print "Not Match"

附有用于提取文本的图像。

现在我需要一种方法来匹配它。我还需要知道从 pytesseract 中提取的字符串将采用 Unicode 还是什么？是否有办法将其转换为 Unicode（就像我们在写字板中可以选择将字符转换为 Unicode）

您正在使用英语以外的语言使用 Tesseract，因此首先请确保您安装了适合您的语言的学习数据集，如图所示here（仅限 Linux 指令）。

其次，如果您使用非 ascii 语言（就像我一样，作为一个斯洛文尼亚人），我强烈建议您切换到 Python 3。 Python 3 可以开箱即用地使用 Unicode，因此它确实为您节省了编码和解码字符串的大量痛苦......

# python3 obligatory !!!    
from PIL import Image
import pytesseract

img = Image.open("T9esw.png")
img.load()
text = pytesseract.image_to_string(img, lang="rus")  #Specify language to look after!
print(text)
i = 'Сред. Скорость'
print(i)
if (text == i):
    print("Match")
else :
    print("Not Match")

哪个输出：

Фред скорасть
Сред. Скорость
Not Match

这意味着单词不太匹配，但考虑到最少的编码工作和输入图像的糟糕质量，它认为性能相当惊人。无论如何，这个例子表明编码和解码应该不再是问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Unicode

OCR

使用python进行Pytesseract外语提取的相关文章

Pandas set_levels，如何避免标签排序？

我使用时遇到问题set levels多索引 from io import StringIO txt Name Height Age Metres A 1 25 B 95 1 df pd read csv StringIO txt heade
在 Celery 任务中调用 Google Cloud API 永远不会返回

我正在尝试拨打外部电话Google Cloud Natural Language API从一个内Celery任务使用google cloud python包裹问题是对 API 的调用永远不会返回挂起 celery task def g
我应该使用 Python 双端队列还是列表作为堆栈？ [复制]

这个问题在这里已经有答案了我想要一个可以用作堆栈的 Python 对象使用双端队列还是列表更好元素数量较少还是数量较多有什么区别您的情况可能会根据您的应用程序和具体用例而有所不同但在一般情况下列表非常适合堆栈 append is
MongoEngine 查询具有以列表中指定的前缀开头的属性的对象的列表

我需要在 Mongo 数据库中查询具有以列表中任何前缀开头的特定属性的元素现在我有一段这样的代码 query mymodel terms term in query terms 并且这会匹配在列表 term 上有一个项目的对象该列表中的
矩形函数的数值傅里叶变换

本文的目的是通过一个众所周知的分析傅里叶变换示例来正确理解 Python 或 Matlab 上的数值傅里叶变换为此我选择矩形函数这里报告了它的解析表达式及其傅立叶变换https en wikipedia org wiki Rectan
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
Java 和 Python 可以在同一个应用程序中共存吗？

我需要一个 Java 实例直接从 Python 实例数据存储中获取数据我不知道这是否可能数据存储是否透明唯一或者每个实例如果它们确实可以共存都有其单独的数据存储总结一下 Java 应用程序如何从 Python 应用程序的数据存
使用 python/numpy 重塑数组

我想重塑以下数组 gt gt gt test array 11 12 13 14 21 22 23 24 31 32 33 34 41 42 43 44 为了得到 gt gt gt test2 array 11 12 21 22 13 14
Python - 如何确定解析的 XML 元素的层次结构级别？

我正在尝试使用 Python 解析 XML 文件中具有特定标记的元素并生成输出 excel 文档该文档将包含元素并保留其层次结构我的问题是我无法弄清楚每个元素解析器在其上迭代的嵌套深度 XML 示例摘录 3 个元素它们可以任意嵌套
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
Spider 必须返回 Request、BaseItem、dict 或 None，已“设置”

我正在尝试从以下位置下载所有产品的图像我的蜘蛛看起来像 from shopclues items import ImgData import scrapy class multipleImages scrapy Spider name m
如何以正确的方式为独立的Python应用程序制作setup.py？

我读过几个类似的主题但还没有成功我觉得我错过或误解了一些基本的事情这就是我失败的原因我有一个用 python 编写的应用程序我想在标准 setup py 的帮助下进行部署由于功能复杂它由不同的 python 模块组成但单独
每当使用 import cv2 时 OpenCV 都会出错

我在终端上使用 pip3 install opencv contrib python 安装了 cv2 并且它工作了但是每当我尝试导入 cv2 或运行导入了 cv2 的 vscode 文件时在 python IDLE 上它都会说 Trac
重新分配唯一值 - pandas DataFrame

我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人总体目标是使用尽可能少的个人诀窍在于这
如何使用 PrimaryKeyRelatedField 更新多对多关系上的类别

Django Rest 框架有一个主键相关字段 http www django rest framework org api guide relations primarykeyrelatedfield其中列出了我的 IDmany to m
将索引与值交换的最快方法

考虑pd Series s s pd Series list abcdefghij list ABCDEFGHIJ s A a B b C c D d E e F f G g H h I i J j dtype object 交换索引和值并
python 对浮点数进行不正确的舍入

gt gt gt a 0 3135 gt gt gt print 3f a 0 314 gt gt gt a 0 3125 gt gt gt print 3f a 0 312 gt gt gt 我期待 0 313 而不是 0 312 有没有
如何将Python3设置为Mac上的默认Python版本？

有没有办法将 Python 3 8 3 设置为 macOS Catalina 版本 10 15 2 上的默认 Python 版本我已经完成的步骤看看它安装在哪里 ls l usr local bin python 我得到的输出是这样的
如何在Python脚本中从youtube-dl中提取文件大小？

我是 python 编程新手我想在下载之前提取视频音频大小任何 YouTube 视频 gt gt gt from youtube dl import YoutubeDL gt gt gt url https www youtube c

随机推荐

如果您递增一个等于 STL 容器的结束迭代器的迭代器，会发生什么

如果当迭代器指向向量的最后一个元素时将其增加 2 会怎样在这个问题询问如何通过 2 个元素将迭代器调整为 STL 容器提供了两种不同的方法使用算术运算符 2 或两次或使用 std advance 我已经使用 VC 7 对它们进行了
Android 应用程序锁定相机

是否可以获取当前在 Android 设备上锁定相机的应用程序进程的 Android 应用程序进程 ID 或包名称或其他使用以下命令很容易查看它是否已锁定Camera open 但我想找出有它的过程 Thanks CameraServi
如何解决 sqlite 和 c# 中的“'”问题？

我正在使用 Sqlite 使用 Microsoft Visual C 2008 Express 我知道我的文本中的撇号在查询中存在问题我的问题是我认为我可以用替换它它似乎不起作用这是我的代码的简化示例 string myStrin
如何安全地访问 Django 模型中的请求对象

我正在尝试做的事情我正在尝试访问我的 django 模型中的请求对象以便我可以使用以下命令获取当前登录的用户request user 我尝试过的我发现了一个黑客this地点但评论中有人指出在生产时不要这样做我还尝试覆盖模型的 in
计算预测值时发出警告

使用数据框 x Date Val 1 1 2012 7 2 1 2012 9 3 1 2012 20 4 1 2012 24 5 1 2012 50 a lt seq as Date tail x 1 Date by month lengt
序列化 Jackson JSON 树模型时排除 NullNode

我有一个 pojo 类型在序列化时需要将特定数值设置为特殊字符串这些值将始终为空可能非常深入层次结构为了实现这一点我首先将 pojo 转换为带有完整 null 的 JsonNode 以保留属性顺序然后我沿着结构中的路径设置一些字
验证动态添加的控件

如何将动态添加的控件添加到验证中 div class editor field Html EditorFor model gt model Middlename div div div
从 Chrome 控制台使用 Tampermonkey API？

有什么办法使用篡改猴的 API在 Chrome 的 JavaScript 控制台中我想搞乱像这样的功能GM xmlhttpRequest and GM listValues 创建以下脚本 UserScript name Exports s
Polymer：手动提交表单

在聚合物中我正在尝试手动提交表单我的表格如下所示
获取两个多边形相交区域的坐标（Python）

假设我有两个多边形它们的名称和坐标是在 Python 中 p 1 1 2 2 4 2 3 1 q 1 5 2 3 5 5 4 3 5 1 在我们人脑中很容易知道这两个多边形相交并计算相交区域坐标但我想让我们的机器知道如何计算相交区域
在 Unity 中显示实时摄像头源

我有一个关于 Unity 的问题我希望这个问题之前没有得到回答我想将相机如高清摄像头连接到我的计算机并且视频源应显示在我的 Unity 场景中可以将其想象为虚拟电视屏幕实时显示摄像机所看到的内容我怎样才能做到这一点谷歌没有
Facebook XMPP 聊天 API 发送消息 PHP

我目前正在研究 Facebook Chat API 我想通过应用程序向我的 Facebook 联系人发送聊天消息使用 facebook 提供的示例我能够连接到 facebook 聊天服务器但这更多的是一种反复试验的事情我只能模糊地理
在 c# 类型上切换大小写[重复]

这个问题在这里已经有答案了可能的重复 C 是否有比打开类型更好的替代方案你好假设我在类类型上有一个很大的 if else 有没有办法用开关盒来做到这一点例子 function test object obj if obj is
是否可以在 Android API < 24 上使用 Java 8 Stream API？

我读过这个post这里但我仍然无法在 minSdkVersion List
如何在字符串中使用函数？

a href 1 class bbc link new win target blank 我想使用urlencode 功能 a href urlencode 1 class bbc link new win target blank 但我不
我可以在同一进程中使用同一 DLL 的两个不兼容版本吗？

我使用的是同一供应商生产的两个商业库称为 VendorLibA 和 VendorLibB 这些库根据编译器版本例如 VC7 VC8 分布为多个 DLL 这两个库都依赖于该供应商生成的另一个库称为 VendorLibUtils 并包含在
python，Windows 10：在特定的虚拟桌面环境（工作空间）上启动应用程序

我有 3 个不同的 Windows 10 虚拟桌面当计算机启动时我希望 python 加载不同虚拟桌面中的所有应用程序现在我只能在桌面 1 中启动我如何告诉 python 在桌面 2 和 3 中启动应用程序我正在使用Python
实现jqgrid单元格编辑日期选择器

我知道由于引用可以使用日期选择器进行单元格编辑here and here 但是当我单击单元格时没有显示日期选择器下面是相关列的 colModel 条目我有可用的日期选择器用户界面在其他示例中 dataInit 没有用引号引起来
Xcode 6 - 将 segue 推送到同一视图控制器

我有一个表视图控制器点击单元格可以根据单元格中的数据类型触发许多不同类型的推送序列之一正确segue的标识符在tableView didSelectRowAtIndexPath 中确定然后使用self performSegueWith
使用python进行Pytesseract外语提取

我在 Windows 机器上使用 Python 2 7 Pytesseract 0 1 7 和 Tesseract ocr 3 05 01 我尝试提取韩语和俄语的文本并且我确信我提取了现在我需要将字符串与从图像中提取的字符串进行比较我

使用python进行Pytesseract外语提取

使用python进行Pytesseract外语提取 的相关文章

随机推荐

热门标签

使用python进行Pytesseract外语提取的相关文章