如何解码cp1252字符串？

2024-01-14

我使用 eyeD3 获取 mp3 标签 (ID V1)，并且想了解其编码。这是我尝试的：

>>> print(type(mp3artist_v1))
<type 'unicode'>

>>> print(type(mp3artist_v1.encode('utf-8')))
<type 'str'>

>>> print(mp3artist_v1)
Zåìôèðà

>>> print(mp3artist_v1.encode('utf-8').decode('cp1252'))
ZÃ¥Ã¬Ã´Ã¨Ã°Ã 

>>> print(u'Zемфира'.encode('utf-8').decode('cp1252'))
ZÐµÐ¼Ñ„Ð¸Ñ€Ð°

如果我使用在线工具 http://www.artlebedev.ru/tools/decoder/解码该值，它表示该值ZÐµÐ¼Ñ„Ð¸Ñ€Ð°可以转换为正确的值Zемфира通过改变编码CP1252 → UTF-8和价值Zåìôèðà通过更改编码，例如CP1252 → CP1251.

我应该做什么才能得到Zемфира from mp3artist_v1? .encode('cp1252').decode('cp1251')效果很好，但是我怎样才能自动理解可能的编码（只有 3 种编码是可能的 -cp1251, cp1252, utf-8？我打算使用以下代码：

def forceDecode(string, codecs=['utf-8', 'cp1251', 'cp1252']):
    for i in codecs:
        try:
            print(i)
            return string.decode(i)
        except:
            pass
    print "cannot decode url %s" % ([string])

但这没有帮助，因为我应该首先使用一个字符集进行编码，然后使用另一个字符集进行解码。

This

s = u'Zåìôèðà'
print s.encode('latin1').decode('cp1251')
# Zемфира

解释：Zåìôèðà被错误地视为 unicode 字符串，而实际上它是一个字节序列，这意味着Zемфира在 cp1251 中。通过应用encode('latin1')我们使用代码点数字作为字节值，将此“unicode”字符串转换回字节，然后将这些字节转换回 unicode，告诉解码我们正在使用 cp1251。

至于自动解码，以下强力方法似乎适用于您的示例：

import re, itertools

def guess_decode(s):
    encodings = ['cp1251', 'cp1252', 'utf8']

    for steps in range(2, 10, 2):
        for encs in itertools.product(encodings, repeat=steps):
            r = s
            try:
                for enc in encs:
                    r = r.encode(enc) if isinstance(r, unicode) else r.decode(enc)
            except (UnicodeEncodeError, UnicodeDecodeError) as e:
                continue
            if re.match(ur'^[\w\sа-яА-Я]+$', r):
                print 'debug', encs, r
                return r

print guess_decode(u'ZÐµÐ¼Ñ„Ð¸Ñ€Ð°')
print guess_decode(u'Zåìôèðà')
print guess_decode(u'ZÃ¥Ã¬Ã´Ã¨Ã°Ã\xA0')

Results:

debug ('cp1252', 'utf8') Zемфира
Zемфира
debug ('cp1252', 'cp1251') Zемфира
Zемфира
debug ('cp1252', 'utf8', 'cp1252', 'cp1251') Zемфира
Zемфира

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何解码cp1252字符串？的相关文章

python导入模块时如何避免一直写模块名？

我用math最近模块很多我不想写math sqrt x and math sin x 每时每刻我想缩短它并写sqrt x and sin x How 对于较长的模块名称通常会缩短它们例如 import numpy as np 然后您
Python：记录垃圾收集器

我有一个 python 应用程序有一些性能问题我想将垃圾收集器的事件特别是何时调用添加到我的日志中是否可以 thanks http docs python org library gc html gc set debug http
底图上的子图

我有一张英国地图和 121 个地点每个地点有 3 个值我想绘制 121 个位置中每个位置的三个值的小条形图目前这些值绘制为markersize属性看起来像这样密集恐惧症情节 https i stack imgur com 5fv
Python 中的安全解除引用

Groovy 有一个很好的安全取消引用运算符这有助于避免 NullPointerExceptions variable method The method仅当以下情况时才会被调用variable is not null 有没有办法在 Py
Python，将迭代函数变成递归函数

我创建了一个输出 4 3 2 1 0 1 2 3 4 的迭代函数 def bounce2 n s n for i in range n print n n n 1 if n lt 0 for i in range s 1 print n n
Python sqlite3游标没有属性commit

当我运行这段代码时 path Scripts wallpapers single png conn sqlite3 connect Users Heaven Library Application Support Dock desktopp
如何从谷歌云存储桶读取音频文件并在datalab笔记本中使用ipd播放

我想在数据实验室笔记本中播放我从谷歌云存储桶中读取的声音文件这个怎么做 import numpy as np import IPython display as ipd import librosa import soundfile as
如何在 ReportLab 段落中插入回车符？

有没有办法在 ReportLab 的段落中插入回车符我试图将 n 连接到我的段落字符串但这不起作用 Title Paragraph Title n Page myStyle 我想要这样做因为我将名称放入单元格中并且想要控制单元格中的
如何删除 Tkinter 网格布局中的整行

我正在尝试使用 Tkinter 进行测试应用程序我使用网格布局管理器创建了一个表如下所示有两个按钮 Add row and 删除行 Add row按预期工作我如何删除选定的行我的想法是为每一行提供一个检查按钮如下所示并且可以删
在Python中创建一个新表

我正在尝试从数控机床中提取数据事件每毫秒发生一次我需要过滤掉一些用管道分隔的变量分隔符 PuTTy exe 程序生成的日志文件我尝试阅读熊猫但列不在同一位置 df pd read table data log sep 日志文件的一
在 Flask (WSGI) 中使用全局单例，我是否需要担心竞争条件？ [复制]

这个问题在这里已经有答案了 Flask 的 hello world 演示是 from flask import Flask app Flask name app route def hello return Hello World if n
网页抓取 - 前往第 2 页

如何访问数据集的第二页无论我做什么它都只返回第 1 页 import bs4 from urllib request import urlopen as uReq from bs4 import BeautifulSoup as sou
如何从 Python 中指定运行程序的输入文件？

我正在编写一个外部脚本以通过笔记本电脑上的 Python mrjob 模块而不是在 Amazon Elastic Compute Cloud 或任何大型集群上运行 mapreduce 作业我读自mrjob文档 http packag
在Python中删除带有重音符号的字符串中的所有非字母字符

我正在尝试使用 Python 3 7 从包含重音符号的字符串中删除所有非字母字符空格除外我尝试了以下方法 import re text 29 1981 4 2008 clean text re sub W d text print cl
如何在 Python 中从 HTML 页面中提取 URL [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我必须用Python 编写一个网络爬
为什么“return self”返回 None ？ [复制]

这个问题在这里已经有答案了我正在尝试获取链的顶部节点getTopParent 当我打印出来时self name 它确实打印出了父实例的名称然而当我回来时self 它返回 None 为什么是这样 class A def init sel
如何设置 matplotlib 表中列的背景颜色

我在一个目录中有多个 txt 文件例如 d memdump 0 txt 1 txt 10 txt 示例文本文件如下 Applications Memory Usage kB Uptime 7857410 Realtime 7857410
获取调用者文件的绝对路径

假设我在不同的目录中有两个文件 1 py 比如说在C FIRST FOLDER 1 py and 2 py 比如说在C SECOND FOLDER 2 py 文件1 py进口2 py using sys path insert 0 pa
issubclass() 对从不同路径导入的同一类返回 False

目的是实现某种插件框架其中插件是同一基类即 A 的子类即 B 基类使用标准导入加载而子类使用 imp load module 从众所周知的包即 pkg 的路径加载 pkg init py mod1 py class A mod2
从 pandas 数据框中绘制堆积条形图

我有数据框 payout df head 10 复制以下 Excel 绘图的最简单最智能和最快的方法是什么我尝试过不同的方法但无法让一切都到位 Thanks 如果您只想要一个堆积条形图那么一种方法是使用循环来绘制数据框中的每一列并

随机推荐

使用 Mapkit 确定距离

如何使用 Mapkit 确定 1000 英尺或 1 2 英里距离某个销钉的半径或两个销钉之间的距离例如我将地图以引脚 A 为中心引脚 B C 和 D 也位于地图上与引脚 A 的距离不同 B 和 C 距离 A 不到 1 2 英里但
使用下标访问 NSArray 的项目

是否可以使用 idx 访问 NSArray 的对象我有一个使用样式索引的标准库我不想重写整个库以适应 ObjC 的 objectAtIndex 方法 As in NSArray obj NSArray id item obj 0 接受
如何从 QTableWidget 中删除所有行

我正在尝试删除 a 中的所有行QTableWidget http doc qt io qt 4 8 qtablewidget html 这是我尝试过的 for int i 0 i lt mTestTable gt rowCount i mT
AttributeError：无法从 kedro.extras.datasets.pandas 加载对象 ParquetDataSet

我刚开始使用 Kedro 在 conda 环境中安装 kedro 后在尝试列出我的目录时出现以下错误执行的命令 kedro catalog list Error kedro io core DataSetError 解析配置时发生异常
如何发送 Maven 构建的电子邮件通知

有没有一种简单的方法可以在 Maven 中为每个构建发送电子邮件通知而无需外部 CI 工具就像 Ant 一样如果 CI 不是一个选项我会使用一个简单的脚本包装器 mvn install 2 gt 1 tee build log ca
将 UIPrinter 保存到 NSUserDefaults

我正在尝试像这样保存 UIPrinter 对象 IBAction setPrinterInSettings id sender UIPrinterPickerController picker UIPrinterPickerControll
无法理解如何在格式编号 XML 中使用逗号

我在理解如何在 XML 格式编号中使用逗号时遇到一些困难例如
在 Cloudformation 中使用用户数据

我试图在我的用户数据中添加一些简单的 bash 命令但看起来它们没有运行 AWSTemplateFormatVersion 2010 09 09 Resources RHELInstance Type AWS EC2 Instance P
用于 C/C++ 的可移植 zip 库（不是应用程序）[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我希望能够在 Windows Linux Unix 和 MacOS 的多个版本上从非 GUI C C 应用程序中压缩文件用户将使用 Ec
空间权重：非对称邻接矩阵？

我正在创建一个邻接矩阵来在 R 中进行空间分析数据都是美国大陆的县我从美国人口普查老虎文件中获取了各县的空间多边形我能够创建邻居列表并且它是对称的但是当我将其转换为邻接矩阵时它不是对称的这是一个问题因为我的目标是使用运行空间
根据 Woocommerce 中的产品类别添加到购物车的最大商品数量

我正在尝试自定义商店以便名为 Quantity4 的类别仅允许在购物车中添加 4 个商品而名为 Quantity6 的类别仅允许在购物车中添加商品据我所知这可以使用嵌套来实现if声明但不知何故这不起作用 add filter wo
text/csv mimetype 的可选标头参数的正确语法？

根据RFC 4180 https www rfc editor org rfc rfc4180 标题行是否存在应通过此选项的可选 header 参数来指示 MIME 类型那么这是否意味着正确的字符串是 text csv header
Microsoft Bot 框架：在连接时发送消息

我是 Microsoft Bot 框架的新手现在我正在模拟器上测试我的代码我想在您连接后立即发送 Hello 消息以下是我的代码 var restify require restify var builder require botb
Linux命令通过硬件流量控制将二进制文件发送到串口？

我需要发送二进制文件至 RS232 设备打印机并不总是可以接受数据因此它有 BUSY 输出信号我将其连接到 CTS 引脚我尝试将它与minicom 并且硬件流控制工作得很好但我无法使用 minicom 发送原始文件它工作错误
如何读取 C# app.config 文件中的多个值？

我想读取以下app config文件如何读取它我需要更改任何内容才能读取该文件吗
为什么重复的二维码看起来不一样？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我的理解是二维码包含正在读取的数据并且不需要互联网连接来解释代码如果是这种情况为什么每次我使用相同的数据重新创建新的二维码时都会得到不同的二维
使用 jsonschema 验证键在对象数组中是否具有唯一值？

如何使用 jsonschema 验证 JSON 在对象数组中每个对象中的特定键必须是唯一的例如验证每个名称 k v 对的唯一性应该失败 test array Name name1 Description unique desc 1 N
Jetty，我的五个线程在哪里？

我正在使用弹簧码头我正在配置码头 Bean public JettyEmbeddedServletContainerFactory jettyEmbeddedServletContainerFactory final JettyEmbe
如何查询avro格式的数据集？

这适用于镶木地板 val sqlDF spark sql SELECT DISTINCT field FROM parquet file path 我用 Avro 尝试了同样的方法但即使我使用它它仍然给我一个错误com databric
如何解码cp1252字符串？

我使用 eyeD3 获取 mp3 标签 ID V1 并且想了解其编码这是我尝试的 gt gt gt print type mp3artist v1

如何解码cp1252字符串？

如何解码cp1252字符串？ 的相关文章

随机推荐

热门标签

如何解码cp1252字符串？的相关文章