处理UnicodeDecodeError: ‘XXX' codec can't decode bytes in position...的问题

2023-05-16

错误信息:

UnicodeDecodeError: ‘XXX' codec can't decode bytes in position 2-5: illegal multibyte sequence 

这是因为遇到了非法字符,例如:全角空格往往有多种不同的实现方式,比如\xa3\xa0,或者\xa4\x57,
这些字符,看起来都是全角空格,但它们并不是“合法”的全角空格
真正的全角空格是\xa1\xa1,因此在转码的过程中出现了异常。 
而之前在处理新浪微博数据时,遇到了非法空格问题导致无法正确解析数据。

[解决办法]

#将获取的字符串strTxt做decode时,指明ignore,会忽略非法字符,

#当然对于gbk等编码,处理同样问题的方法是类似的

strTest = strTxt.decode('utf-8', 'ignore')

return strTest

[补充]

默认的参数就是strict,代表遇到非法字符时抛出异常; 
如果设置为ignore,则会忽略非法字符; 
如果设置为replace,则会用?号取代非法字符; 
如果设置为xmlcharrefreplace,则使用XML的字符引用。 
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

处理UnicodeDecodeError: ‘XXX' codec can't decode bytes in position...的问题 的相关文章

  • 如何获取 wav 文件中的频率列表

    我正在尝试解码一些音频 这些音频基本上是两个频率 0 为 200hz 1 为 800hz 可以直接转换为二进制 音频样本 https i stack imgur com BPa30 jpg 此示例翻译为 1001011 第三个频率为 160
  • 在 python 中将某些字符串(utf-8 或其他)转换为简单的 ASCII 字符串的简单方法是什么

    在我的 python 脚本中 我从一个我没有编写的函数中返回了一些字符串 它的编码各不相同 我需要将其转换为 ascii 格式 有没有一些万无一失的方法可以做到这一点 我不介意用空格或其他字符替换非 ASCII 字符 如果您想要一个明确代表
  • PHP 中JavaScript 的decodeURIComponent 的等价物是什么?

    我有一个包含 unicode 字符的字符串 我正在通过 HTTP 传输该字符串 该字符串是用 Javascript 编码的encodeURIcomponent php 中是否有与 Javascript 等效的函数decodeURICompo
  • 解码和重建后无法安装.apk(Apktool、Apkstudio)

    我用以下命令解码了 apk 文件apktool我没有改变任何东西 之后 我再次构建它 然后尝试安装 apk 但即使在进行一些基本更改后 我仍收到以下错误 我使用 Windows 做了什么cmd apktool d somename apk
  • 如何在CTR模式下寻找并解密部分码流?

    我对 cryptopp 中的部分解码有疑问 使用 AES 256 CTR 编码源 CTR Mode lt AES gt Encryption e e SetKeyWithIV key 32 iv string encrypt string
  • wav <> mp3 for flash(as3)

    我想知道 MP3 解码 编码 我希望使用 AS3 在 Flash 中实现这一点 我确信这将是一个正确的痛苦 我不知道从哪里开始 有人可以提供任何指示吗 参考资料 很久以后 非常感谢大家的意见 看来我还有很长的路要走 理论上 您也可以将其作为
  • 当输入分辨率为 1200x1600 时,通过 C-API 进行 ffmpeg 解码会导致伪影。难道我做错了什么?

    使用 C API 和 FFmpeg 5 1 我已经能够在 Android 上使用 libx264 对 h264 视频进行编码 现在我想在 Linux 上的 C 应用程序中重播它们 这些视频可以在浏览器或我尝试过的其他播放器 例如 ffmpe
  • “ascii”编解码器无法对位置 * 或不在范围内的字符进行编码 (128)

    stackoverflow 上有一些线程 但我找不到整个问题的有效解决方案 我从 urllib 读取函数收集了大量文本数据并将其存储在 pickle 文件中 现在我想将这些数据写入文件 写作时我遇到类似的错误 ascii codec can
  • 尝试解码流时膨胀类时出错

    我累坏了 我一整天都在做这件事 在我的应用程序中 我有 100 个 ImageView 但出现 java outofmemory 错误 因此我决定解码并调整文件大小 但我无法管理它工作 有人可以看一下代码并给我建议吗 主要活动代码 公共类
  • 如何在 C# 中将 g729 编码的字节数组转换为 .WAV?

    我一直在用 C Sharp 语言开发 VoIP 应用程序 该项目的目的是 VoIP 通话录音 它使用 g729 编解码器 我可以从 RTP 负载中提取语音部分 如何将此字节数组转换为 wav 格式 请帮我 您可以尝试使用ffmpeg程序 h
  • InputStreamReader缓冲问题

    不幸的是 我正在从一个具有两种字符编码类型的文件中读取数据 有一个标题和一个正文 标头始终采用 ASCII 格式 并定义正文编码所用的字符集 标头不是固定长度 必须通过解析器运行以确定其内容 长度 该文件也可能非常大 因此我需要避免将整个内
  • JavaFX 媒体播放器不播放视频

    Using OpenJFX 11我正在使用媒体播放器在 Linux 系统上播放一些剪辑 其中一些显示 另一些则不显示 据我所知 编码的唯一区别是 未播放的视频包含音轨 这是的输出mediainfo对于播放的视频 General Comple
  • 如何解码字节对象的字符串表示形式?

    我有一个字符串 其中包含编码字节 str1 b Output file xeb xac xb8 xed x95 xad xeb xb6 x84 xec x84 x9d xlsx Created 我想解码它 但我不能 因为它已经变成了一个字符
  • 自定义文件格式和编解码器?

    我已经被编解码器问题弄乱了好几天了 但仍然看不到全局 这是我第一次处理音频 视频格式和编解码器 所以我真的需要一些帮助 这是工作 我正在编写几个负责编码和解码自定义 mpeg 文件的组件 在标准解 压缩过程 对于音频和视频 之上 我将实现一
  • 如何解码包含无效字节的字节对象,Python3

    在python2中 我可以整天生成以字符串格式表示的这些十六进制字节 x00 xaa xff gt gt gt 00 decode hex aa decode hex ff decode hex gt gt gt x00 xaa xff 同
  • 如何使用 FFmpeg 在 C++ 中将 AVFrame 保存为图像

    在我的项目中 我想保存 Hevc 文件中的一帧 我在源代码中使用 FFmpeg 来解码 Hevc 文件并获取 AVFrame 和 AVCodecContext 我需要的是将框架保存为图片 全彩 我尝试将其保存为 pgm 文件 因此图片只是灰
  • 在 Swift 中解码 JSON 中的 base64_encode 图像

    我有一个 mysql 数据库 其中包含一些图像 我从 php 文件接收数据 php result key image based64 encode resultArray key image 现在有了 Json 文件 我得到如下内容 Jso
  • 文件包含\u00c2\u00a0,转换为字符

    我有一个 JSON 文件 其中包含这样的文本 wax and voila u00c2 u00a0At the moment you can t use our 我的简单问题是如何将这些 u 代码转换 而不是删除 为空格 撇号等 Input
  • UTF-8 解码如何知道字节边界?

    我一直在阅读大量有关 unicode 编码的文章 尤其是有关 Python 的文章 我想我现在对此已经有了相当深入的了解 但仍有一个小细节我有点不确定 解码如何知道字节边界 例如 假设我有一个带有两个 unicode 字符的 unicode
  • 如何替换 pandas 数据框列中的重音符号

    我有一个数据框dataSwiss其中包含瑞士城市的信息 我想用普通字母替换带有重音符号的字母 这就是我正在做的 dataSwiss Municipality dataSwiss Municipality str encode utf 8 d

随机推荐