Python - 处理混合编码文件

2023-12-31

我有一个文件，大部分是 UTF-8，但也有一些 Windows-1252 字符。

我创建了一个表来将 Windows-1252 (cp1252) 字符映射到其 Unicode 对应字符，并希望使用它来修复错误编码的字符，例如

cp1252_to_unicode = {
    "\x85": u'\u2026', # …
    "\x91": u'\u2018', # ‘
    "\x92": u'\u2019', # ’
    "\x93": u'\u201c', # “
    "\x94": u'\u201d', # ”
    "\x97": u'\u2014'  # —
}

for l in open('file.txt'):
    for c, u in cp1252_to_unicode.items():
        l = l.replace(c, u)

但尝试以这种方式进行替换会导致引发 UnicodeDecodeError，例如：

"\x85".replace("\x85", u'\u2026')
UnicodeDecodeError: 'ascii' codec can't decode byte 0x85 in position 0: ordinal not in range(128)

关于如何处理这个问题有什么想法吗？

如果您尝试将此字符串解码为 utf-8，如您所知，您将收到“UnicodeDecode”错误，因为这些虚假的 cp1252 字符是无效的 utf-8 -

但是，Python 编解码器允许您注册处理编码/解码的回调 http://docs.python.org/library/codecs.html#codecs.register_errorg 错误，使用 codecs.register_error 函数 - 它获取 UnicodeDecodeerror 参数 - 您可以编写这样一个处理程序，尝试将数据解码为“cp1252”，并继续以 utf-8 格式解码字符串的其余部分。

在我的 utf-8 终端中，我可以构建一个混合的错误字符串，如下所示：

>>> a = u"maçã ".encode("utf-8") + u"maçã ".encode("cp1252")
>>> print a
maçã ma�� 
>>> a.decode("utf-8")
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/lib/python2.6/encodings/utf_8.py", line 16, in decode
    return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode bytes in position 9-11: invalid data

我在这里编写了上述回调函数，发现了一个问题：即使您将解码字符串的位置增加1，以便它从下一个字符开始，如果下一个字符也不是utf-8并且out范围 (128) 的情况下，在第一个超出范围 (128) 的字符处会引发错误 - 这意味着，如果找到连续的非 ascii、非 utf-8 字符，则解码将“返回”。

解决这个问题的方法是在 error_handler 中有一个状态变量，它检测到这种“走回来”并从上次调用它开始恢复解码 - 在这个简短的示例中，我将其实现为全局变量 - （必须手动每次调用解码器之前重置为“-1”）：

import codecs

last_position = -1

def mixed_decoder(unicode_error):
    global last_position
    string = unicode_error[1]
    position = unicode_error.start
    if position <= last_position:
        position = last_position + 1
    last_position = position
    new_char = string[position].decode("cp1252")
    #new_char = u"_"
    return new_char, position + 1

codecs.register_error("mixed", mixed_decoder)

在控制台上：

>>> a = u"maçã ".encode("utf-8") + u"maçã ".encode("cp1252")
>>> last_position = -1
>>> print a.decode("utf-8", "mixed")
maçã maçã

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python - 处理混合编码文件的相关文章

让 VoiceChannel.members 和 Guild.members 返回完整列表的问题

每当我尝试使用 VoiceChannel members 或 Guild members 时它都不会提供适用成员的完整列表我从文本命令的上下文中获取 VoiceChannel 和 Guild 如下所示 bot command name
计算另一个字符串中多个字符串的出现次数

在 Python 2 7 中给定以下字符串 Spot是一只棕色的狗斑点有棕色的头发斑点的头发是棕色的查找字符串中 Spot brown 和 hair 总数的最佳方法是什么在示例中它将返回 8 我正在寻找类似的东西string c
在 Python 中将列表元素作为单独的项目返回

Stackoverflow 的朋友们大家好我有一个计算列表的函数我想单独返回列表的每个元素如下所示接收此返回的函数旨在处理未定义数量的参数 def foo my list 1 2 3 4 return 1 2 3 4 列表中的元素数
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
Django Rest Framework 是否有第三方应用程序来自动生成 swagger.yaml 文件？

我有大量的 API 端点编写在django rest framework并且不断增加和更新如何创建和维护最新的 API 文档我当前的版本是 Create swagger yaml文件并以某种方式在每次端点更改时自动生成然后使用此文件作
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
打印包含字符串和其他 2 个变量的变量

var a 8 var b 3 var c hello my name is var a and var b bye print var c 当我运行程序时 var c 会像这样打印出来 hello my name is 8 and 3 b
如何使用 Selenium 和 ChromeDriver 解决 TypeError: 'module' object is not callable 错误 [重复]

这个问题在这里已经有答案了代码试验 from selenium import webdriver from selenium webdriver chrome options import Options as Chromeoptions
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
Python 3：将字符串转换为变量[重复]

这个问题在这里已经有答案了我正在从 txt 文件读取文本并且需要使用我读取的数据之一作为类实例的变量 class Sports def init self players 0 location name self players pla
使用 python/numpy 重塑数组

我想重塑以下数组 gt gt gt test array 11 12 13 14 21 22 23 24 31 32 33 34 41 42 43 44 为了得到 gt gt gt test2 array 11 12 21 22 13 14
使用 Python Oauthlib 通过服务帐户验证 Google API

我不想使用适用于 Python 的 Google API 客户端库但仍想使用 Python 访问 Google APIOauthlib https github com idan oauthlib 创建服务帐户后谷歌开发者控制台 http
尽管我已在 python ctypes 中设置了信号处理程序，但并未调用它

我尝试过使用 sigaction 和 ctypes 设置信号处理程序我知道它可以与python中的信号模块一起使用但我想尝试学习当我向该进程发送 SIGTERM 时但它没有调用我设置的处理程序只打印终止为什么它不调用处理程序
如何使用 Python 3 检查目录是否包含文件

我到处寻找这个答案但找不到我正在尝试编写一个脚本来搜索特定的子文件夹然后检查它是否包含任何文件如果包含则写出该文件夹的路径我已经弄清楚了子文件夹搜索部分但检查文件却难倒了我我发现了有关如何检查文件夹是否为空的多个建议并且我尝
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
如何以正确的方式为独立的Python应用程序制作setup.py？

我读过几个类似的主题但还没有成功我觉得我错过或误解了一些基本的事情这就是我失败的原因我有一个用 python 编写的应用程序我想在标准 setup py 的帮助下进行部署由于功能复杂它由不同的 python 模块组成但单独
如何使用 PrimaryKeyRelatedField 更新多对多关系上的类别

Django Rest 框架有一个主键相关字段 http www django rest framework org api guide relations primarykeyrelatedfield其中列出了我的 IDmany to m

随机推荐

将 Grunt 应用程序部署到 heroku 时，NPM 不会安装模块依赖项

我使用 grunt 制作了一个静态单页网站我现在尝试使用以下命令将其部署到 herokuheroku buildpack nodejs grunt https github com mbuchetics heroku buildpack
已 root 的 Galaxy S8 上的设备所有者

我一直在尝试将我的内部演示应用程序提升为设备所有者rootedS8 一直有问题我尝试过的方法 1 NFC 配置如所解释的here https github com googlesamples android NfcProvisionin
如何使用应用密码访问bitbucket

我已经按照说明创建了应用程序密码here https confluence atlassian com bitbucket app passwords 828781300 html 但现在我如何使用此应用程序密码访问存储库网址是什么有
使用 C 无法从 TCP 套接字正确接收数据 [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我使用的是 Ubuntu 12 04
如果字符串出现在源（或差异）中，Git 在提交之前发出警告

当我在某个场所进行表演时我希望能够被阻止 git如果我要提交的更改包含某个字符串例如 todo or hack 有人可以告诉我如何实现这一目标吗或警告或在提交时一个简单的预提交钩子检查是否添加了字符串 todo 如下所示 bin
Chrome 扩展和 Javasctipy 数据库

我正在尝试构建一个 Chrome 扩展程序该扩展程序将大量使用数据和图像在存储数据时我有哪些选择我希望我有某种 SQL 选项 SQLite 你可以去base64 http en wikipedia org wiki Base64编码图
在后台打开新标签页？

使用 javascript 我想在不同的选项卡中打开一个新页面但仍将注意力集中在当前选项卡上我知道我可以这样做 open http example com focus 但是当我在 Chrome 中执行此操作时它会在切换回当前选项卡之
无法以编程方式更改 UITextView 框架大小

我已使用界面生成器在视图中插入 UITextView 现在我想更改其框架大小以便以编程方式适合内容问题在于由于限制大小似乎被锁定并且无法从代码中更改如果我在文件检查器中禁用自动布局每个对象都会删除约束但我只想更改 UIText
“UnicodeEncodeError：‘ascii’编解码器无法对字符进行编码”

我试图通过正则表达式传递大的随机 html 字符串而我的 Python 2 6 脚本对此感到窒息 UnicodeEncodeError ascii 编解码器无法对字符进行编码我追溯到这个词末尾的商标上标 Protection 我希望将来
如何交互 BlazorWebView 和 Windows 窗体

我想将数据从 Windows 窗体发送到 BlazorWebView 并接收从 Web 视图返回到窗体的通知这个怎么做在 Net 6 Windows 窗体应用程序中 BlazorWebView blazorApp new BlazorW
iPhone 中用于 AES 加密的不同填充模式和密码模式有哪些？

iPhone 中用于 AES 加密的不同填充模式和密码模式有哪些 Thanks 有两种填充模式 PKCS 7 和无以及两种相应的密码模式 CBC 和 ECB 如果您指定kCCOptionPKCS7Padding然后你会得到 CBC 并且如
如何在 MySQL 中使用准备好的语句截断表？

这返回 true 但它没有截断表 this gt db gt query TRUNCATE TABLE tablename 但它在为准备好的语句创建数据库连接对象之前起作用如何修复它另外我想知道如何使用准备好的语句截断表 NO 准备好
djangorest框架创建带有密码的用户

使用 django rest framework 3 和 django 1 8 我正在尝试使用 django rest framework ModelViewSerializer 创建用户问题是DRF使用的默认objects create
如何在 PostgreSQL 中对使用 date_trunc 函数的表达式创建索引？

当我尝试在 PostgreSQL 中对类型的表字段的表达式创建索引时date 使用date trunc函数我收到以下错误 functions in index expression must be marked IMMUTABLE 我该如
Webpack 4 devtool 选项不适用于 webpack-dev-server

在我决定发布这个问题之前我做了很多事情作为背景调查所以我的问题是我使用 webpack v4 6 0 和 webpack dev server v3 1 3 他们一起工作得很好但现在我正在尝试为我的应用程序设置源映射似乎开发工具
如何续订 Azure API 管理证书

使用我们的 Azure API 管理端点配置的证书今天过期了显然它的有效期只有一年我们如何更新它我们认为使用 MS 提供的默认 API 管理证书意味着我们不必手动担心更新它但事实似乎并非如此证书过期消息 https i stack
我的 VBA Excel 宏中的防病毒误报

我刚刚遇到了一个更烦人的问题 https stackoverflow com questions 3339136 antivirus false positive in my executable 突然 Windows Defender 开
Netbeans7.1 和 JavaFX 2.0 - FXML 代码完成不起作用

我开始学习 JavaFX 2 0 并安装了 Netbeans 7 1 java 7 02 SDK 其中包含 JavaFX 2 一切似乎都正常示例项目编译并运行良好我的问题是代码完成不适用于 FXML 文件我按 ctrl space
Matlab 快速傅立叶变换 / fft 用于时间和速度

我有一个 2 列向量其中包含数据子集的时间和速度如下所示 5 40 10 37 15 34 20 39 等等我想要对速度进行傅立叶变换以获得频率我将如何使用快速傅里叶变换 fft 来做到这一点如果我的矢量名称是sampleData
Python - 处理混合编码文件

我有一个文件大部分是 UTF 8 但也有一些 Windows 1252 字符我创建了一个表来将 Windows 1252 cp1252 字符映射到其 Unicode 对应字符并希望使用它来修复错误编码的字符例如 cp1252 to

Python - 处理混合编码文件

Python - 处理混合编码文件 的相关文章

随机推荐

热门标签

Python - 处理混合编码文件的相关文章