将 Unicode 转义符转换为希伯来语文本

2023-12-07

我的 json 文件中有以下文本：

"\u00d7\u0090\u00d7\u0097\u00d7\u0095\u00d7\u0096\u00d7\u00aa 
\u00d7\u00a4\u00d7\u0095\u00d7\u009c\u00d7\u0092"

它代表希伯来语中的文本“אחוזת פולג”。

无论我使用哪种编码/解码，我似乎都无法正确使用 Python 3.

例如，如果我尝试：

text = "\u00d7\u0090\u00d7\u0097\u00d7\u0095\u00d7\u0096\u00d7\u00aa 
\u00d7\u00a4\u00d7\u0095\u00d7\u009c\u00d7\u0092".encode('unicode-escape')

print(text)

我得到的文字是：

b'\\xd7\\x90\\xd7\\x97\\xd7\\x95\\xd7\\x96\\xd7\\xaa \\xd7\\xa4\\xd7\\x95\\xd7\\x9c\\xd7\\x92'

在字节码中是almost正确的文本，如果我能够删除只有一个反斜杠并转动

b'\\xd7\\x90\\xd7\\x97\\xd7\\x95\\xd7\\x96\\xd7\\xaa \\xd7\\xa4\\xd7\\x95\\xd7\\x9c\\xd7\\x92'

into

text = b'\xd7\x90\xd7\x97\xd7\x95\xd7\x96\xd7\xaa \xd7\xa4\xd7\x95\xd7\x9c\xd7\x92'

（注意我如何将双斜杠更改为单斜杠）然后

text.decode('utf-8')

将产生正确的希伯来语文本。

但我正在努力这样做，并且无法设法创建一段代码来为我做到这一点（而不是像我刚刚展示的那样手动......）

非常感谢任何帮助...

该字符串不“表示”希伯来语文本（至少不表示为 unicode 代码点、UTF-16、UTF-8 或任何众所周知的方式）。相反，它表示一个 UTF-16 代码单元序列，这个序列主要由乘号、货币符号和一些奇怪的控制字符组成。

看起来原始字符数据已经使用一些奇怪的编码组合进行了多次编码和解码。

假设这就是 JSON 文件中保存的内容：

"\u00d7\u0090\u00d7\u0097\u00d7\u0095\u00d7\u0096\u00d7\u00aa \u00d7\u00a4\u00d7\u0095\u00d7\u009c\u00d7\u0092"

您可以按如下方式恢复希伯来语文本：

(jsonInput
  .encode('latin-1')
  .decode('raw_unicode_escape')
  .encode('latin-1')
  .decode('utf-8')
)

对于上面的例子，它给出：

'אחוזת פולג'

如果您使用 JSON 反序列化器读取数据，那么您当然应该省略.encode('latin-1').decode('raw_unicode_escape')步骤，因为 JSON 反序列化器已经为您解释转义序列。也就是说，在 JSON 反序列化器加载文本元素后，只需将其编码为latin-1然后将其解码为utf-8。这有效是因为latin-1(ISO-8859-1) 是一种 8 位字符编码，与 unicode 的前 256 个代码点完全对应，而奇怪的损坏文本将 UTF-8 编码的每个字节编码为 UTF-16 代码的 ASCII 转义单元。

我不确定如果您的 JSON 同时包含损坏的转义序列和有效文本，您可以做什么，可能是latin-1不再正常工作了。请不要将此转换应用于您的 JSON 文件，除非 JSON 本身仅包含 ASCII，这只会让一切变得更糟。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 Unicode 转义符转换为希伯来语文本的相关文章

shap.TreeExplainer 和 shap.Explainer 条形图之间的区别

对于下面给出的代码我得到了不同的条形图shap values 在此示例中我的数据集为 1000train样本有 9 个类别和 500 个test样品然后我使用随机森林作为分类器并生成模型当我开始生成shap条形图在这两种情况下得到
Python 3.6.1 安装位置

我在 Ubuntu 16 服务器上安装了 Python 3 6 1 但找不到安装位置我查看了 usr bin 其中提到了除 3 6 1 之外的所有其他版本在哪里可以找到该版本的可执行文件使用命令 whereis python3 6 1
如何使用魔杖扭曲图像

我正在尝试做同样的事情this https stackoverflow com questions 52090350 how to insert image in a mock up老问题但在python using wand 到目前为止我
JavaScript 中的巨大字符串替换？

我有一个小型 JavaScript 应用程序可以解析用户放入浏览器中的文件最近我发现一些非英语字符的问题此处放置的文件类型使用 Windows 1252 字符集因此诸如实际上是通过我必须将它们全部转换为正确的字符例如我得到S
sklearn ShuffleSplit 出现“__init__() 获得参数 'n_splits' 的多个值”错误

我正进入状态 init 获得参数 n splits 的多个值该行的错误 cv ShuffleSplit n splits 10 test size 0 2 random state 0 在下面的代码中 import matplotlib
Python 3.4 十六进制转日语字符

我目前正在编写一个脚本从我的网站中提取包含日语字符的信息到目前为止我的脚本已从网站上提取数据它以字符串形式返回 xe5 xb9 xb4 xe3 x81 xab xe4 xb8 x80 xe5 xba xa6 xe3 x81 xae
字典键中的通配符

假设我有一本字典 rank dict V 1 A 2 V 3 A 4 正如您所看到的我在一个 V 的末尾添加了一个虽然 3 可能只是 V 的值但我想要 V1 V2 V2234432 等的另一个密钥我想检查它 checker V30
While 在范围内循环用户输入

我有一些代码我想要求用户输入 1 100 之间的数字如果他们在这些数字之间输入一个数字它将打印 Size input 并打破循环但是如果他们在外部输入一个数字1 100 它将打印大小输入并继续向他们重新询问一个数字但我遇到
PHP：使用 UTF-8 的 strpos 和 substr

假设我有一个很长的 UTF 8 编码字符串并说我想检测是否 var存在于该字符串中假设 var始终是简单的字母或 ASCII 字符数字例如 hello123 我不需要使用mb strpos or iconv strpos正确的因为只
占据花车的地板

我发现了两种在 Python 中占据发言权的方法 3 1415 1 and import math math floor 3 1415 第一种方法的问题是它返回一个浮点数即3 0 第二种方法感觉很笨拙而且太长在 Python 中是否有替
导入错误：无法导入名称“FFProbe”

我无法获取ffprobe包 https github com simonh10 ffprobe在 Python 3 6 中工作我使用 pip 安装它但是当我输入import ffprobe it says Traceback most
使用 NSString 进行 UTF8 解码

我是 Objective C 新手尝试使用以下示例将格式错误的 UTF8 编码 NSString 转换为格式良好的字符串苹果文档 http developer apple com library mac documentation Coc
Flask-Admin 具有多对多关系中的附加字段

我有两个表产品成分和产品成分 class ProductIngredient db Model tablename product ingredient id db Column db Integer primary key Tru
在html表格的每一行添加点击功能

我最近创建了一个函数它根据用户在网站中的输入进行一些复杂的名称匹配并将结果作为表格格式的 html 文件返回我的问题是如何在每一行添加点击功能 df get cust info returns a pandas dataframe d
Delphi 中是否有一些功能可以将带有 html 命名和编号实体的字符串转换为 unicode 文本？

我从 mysql 数据库读取数据该数据库由 php 脚本填充所有特殊字符都会转换为命名或编号的 html 实体例如 a m p 2 8 6 我知道没有办法将这些字符转换回 Delphi 中的原始字符作为 unicode 字符串有没有
Python 时间序列聚合

我有一个像这样的数据框 df project ID country prj start prj end revenue profit 2131 USA 201603 201703 100000 30000 5124 UK 201502 20
C++ 数组中的多字节 UTF-8

我在处理数组中的 3 字节 Unicode UTF 8 字符时遇到了问题当它们位于 char 数组中时我收到多字符字符常量和隐式常量转换警告但当我使用 wchar t 数组时 wcout 根本不返回任何内容由于项目的性质它必须是数
是否可以模拟 Python 3.6 中的内置 len() 函数？

是否可以模拟内置len Python 3 6 中的函数我有一个类定义了一个简单的方法该方法依赖于len 函数如下 class MyLenFunc object def is longer than three characters se
JavaPreparedStatementUTF-8字符问题

我有一份准备好的声明 PreparedStatement st 在我的代码中我尝试使用 st setString 方法 st setString 1 userName userName 的值为 ak a setString 方法将 ak
Jupyter Notebook：没有名为 pandas 的模块

我搜索了其他问题但没有找到任何有帮助的内容大多数只是建议您使用 conda 或 pip 安装 pandas 在我的 jupyter 笔记本中我试图导入 pandas import pandas as pd 但我收到以下错误 Modul

随机推荐

标记列表

我喜欢使用列表项作为分隔符来标记列表有没有一种Python式的方法可以做到这一点或者我必须自己写一些东西 Data Label 23 NORM RESP 1 256 None RELV SubList TokenizeList Data
将正则表达式插入另一个正则表达式

在下面的代码中 k2与k1 那是 k2完全相同只是它是使用插值定义的也就是说我expected它是完全一样的从结果可知p k2它不是 v aeiouAEIOU vowels k1 b zB Z aeiouAEIOU consonan
PATCH 和 PUT 请求之间的主要区别是什么？

我正在使用一个PUT我的 Rails 应用程序中的请求现在一个新的 HTTP 动词 PATCH已经被浏览器实现了所以我想知道两者的主要区别是什么PATCH and PUT请求是什么以及我们何时应该使用其中之一 HTTP 动词可能是
通过交换多个字母来修改字符串

假设我有一个很长的字符串例如 ABCEEEEEEDEDAAA 但它仅由五个字母组成说我全部都要 A to be D 反之亦然同样 B and C 一个例子是 DNA 中的核苷酸修改后的示例将是 DCBEEEEEEAEADDD 我意识
Response.Redirect 从 Visual Studio 中的一个 Web 项目到另一个 Web 项目

我正在尝试将项目集成到现有的解决方案中解决方案中的启动项目名为 Foo 它被写入虚拟路径 csweb 当该项目启动时它会加载 csweb Default aspx 这是当前未修改的主页我正在尝试重定向到不同项目中的不同主页我向名为
解析推送通知异常：“未经授权：需要主密钥”

我想使用 Parse API 和 GCM 发送推送通知我已经在服务器上成功完成配置并通过从解析终端发送推送通知并在 Android 设备上接收进行测试但是当我以编程方式发送推送时出现异常未经授权需要主密钥我使用以下代码 Pars
如何将字符串列表数据绑定到 WPF/WP7 中的列表框？

我试图将字符串值列表绑定到列表框以便它们的值逐行列出现在我用这个
如何确定 Perl 警告的位置 - 插入后在哈希上使用each()

我有一个相当大的 Perl 程序用 PAR Packer 打包成可执行文件它使用了相当多的模块通常当 perl 给我一个警告时比如使用未定义的值它会打印错误的位置然后很容易更深入地调试它然而我现在面临一个错误我认为是在
如何缩放嵌入
标签的顽固 SVG？
我有一些指定的 SVG 文件width and height也viewbox像这样

Scala 正则表达式 IP 地址模式匹配

我不明白为什么这段代码返回 false val reg d 1 3 d 1 3 d 1 3 d 1 3 r ttt20 30 4 140ttt match case reg one two three four gt if host one

如何更改浮动元素的顺序？

我几乎不使用float right在我的 css 中现在我做了并遇到了一个恼人的问题我将菜单项浮动到右侧 my HTMl ul li a href Home a li li a href Feedback a li li a href

如何将 CsvHelper.CsvWriter 与 F# 选项类型一起使用？

我正在尝试使用 Net CsvHelper 库将 F 记录集合保存到 csv 文件问题在于选项类型未正确转换为字符串 r nuget CsvHelper open System IO open System Globalization o

JQuery - $ 未定义

我有一个简单的 jquery 点击事件以及 site master 中定义的 jquery 引用 Scripts jquery 1 3 2 js gt type text javascript gt 我已经检查了脚本是否被正确解析我能够

分页大结果集的最佳方法是什么 - Java

我正在寻找从性能角度来看的最佳方法在网页上部分显示结果集比如说每页 10 个项目如果用户想查看更多结果他可以按下一个 btn 我认为可能是错误的按下下一步按钮时应该向服务器发出新请求目前我正在尝试学习Java GWT 谢

如何防止回到之前的活动？

当按下手机上的返回按钮时我想防止特定活动返回到上一个活动具体来说我有登录和注册屏幕两者都启动一个名为的新活动HomeScreen当成功登录注册时主屏幕启动后我想阻止用户通过按返回键返回登录或注册屏幕我尝试使用Inte

使用 TPACKET_V2 时，Vlan id 设置为 0

我对这个 TPACKET V2 的使用有疑问我的问题是在套接字上设置这种类型的数据包后当我尝试接收一些数据包时我无法从数据包中读取 vlan id 当然是从数据包的标头 vlan tci 始终为 0 现在我正在使用 open sus

NSString *string = @"someString" vs NSString *string = [[NSString alloc] initWithFormat@"%@", string]

如果我有一个方法 void myMethod NSString string Object anothermethodWithString string 我打电话给 Object myMethod this is a string with

如何将未知的参数列表映射到 elisp 中的启动进程？

我终于尝试学习 elisp 但还没有集中精力如何将未知的参数列表动态映射到变量这是一个工作函数它将最多三个参数传递给启动进程但我想将无限数量的参数传递给该函数 defun create drush buffer command res

C++ 空括号成员初始化 - 将内存清零？

我最初写了一些这样的代码 class Foo public Foo m buffer private char m buffer 1024 比我聪明的人说使用 m buffer 初始化器会将内存清零我的目的是让内存保持未初始化状态我没有

将 Unicode 转义符转换为希伯来语文本

我的 json 文件中有以下文本 u00d7 u0090 u00d7 u0097 u00d7 u0095 u00d7 u0096 u00d7 u00aa u00d7 u00a4 u00d7 u0095 u00d7 u009c u00d7 u
热门标签

线程池配置

Zalo

51stm32单片机

wsl修改vim字体

Linux进程间通信

测试团队管理

unity一发现问题

PHP反序列化

核心部分

组成

新手必看

云计算及虚拟化

问题合集

PingCAP

双十一

Stata入门

数据库SQL

工具网站收集

证书制作

sjn
Powered by Hwhale

将 Unicode 转义符转换为希伯来语文本

将 Unicode 转义符转换为希伯来语文本 的相关文章

随机推荐

热门标签

将 Unicode 转义符转换为希伯来语文本的相关文章