python读取中编码错误(illegal multibyte sequence )

2023-10-29

读取中文txt文件时,经常会出现: ‘gbk’ codec can’t decode bytes in position 31023: illegal multibyte sequence。
主要讲一种情况就是文章中含有utf-8或gbk无法编码的字符情况。
好多人都说加入’ignore’,但一直都没有说清楚是在open函数中加入,还是在.read()中加入(其实是在open函数中加入,如下面例子)。
‘gb1830’所含的比’gbk’要多,因此下面代码段采用了’gb1830’。

 cf=open("D:\A仲敏2015\python_code\天龙八部.txt",encoding='gb18030',errors='ignore')cf1=cf.read()

本文来自 小木头1209 的CSDN 博客 ,全文地址请点击:https://blog.csdn.net/jiasudu1234/article/details/71173281?utm_source=copy

python中打开文件,open(‘d:/data/synopses_list_wiki.txt’)
出现如下错误:
UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x93 in position 20651: illegal multibyte sequence
报错:

原因是含有无法编码的字符,或者是打开的编码不对。
解决方法一:用 utf-8 编码打开 (实际文件的编码方式)
如下: open('d:/data/synopses_list_wiki.txt',encoding='utf-8')

解决方法二:在open中加入errors=‘ignore’ ,忽略它即可
如下:

open('d:/data/synopses_list_wiki.txt',errors='ignore')

本文来自 狗狗25 的CSDN 博客 ,全文地址请点击:https://blog.csdn.net/wzying25/article/details/79030848?utm_source=copy

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python读取中编码错误(illegal multibyte sequence ) 的相关文章

  • 【python基础知识】7.实操-用Python实现“文字PK”小游戏(一)

    用 Python实现 文字PK 小游戏 前言 明确项目目标 分析过程 拆解项目 逐步执行 代码实现 版本1 0 自定属性 人工PK 版本2 0 随机属性 自动PK 版本3 0 打印战果 三局两胜 前言 我想先和你谈谈一个项目一般是怎么完成的
  • Bootstarp入门教程(4) 排版(1)

    1 标题 HTML中的所有标题标签 从 h1 到 h6 均可用 div class container div class row h1 h1 Bootstrap heading h1 h2 h2 Bootstrap heading h2
  • pkg-config 编译安装

    由于大部分的开源工程都需要用到pkg config 因此今天在这讲解一下pkg config for mac 安装过程 1 检测环境是否已安装pkg config 再命令行中输入 pkg config 若未安装 则提示命令未找到 2 安装p
  • CentOS 7安装DastDfs

    1 安装gcc 编译时需要 FastDFS是C语言开发 安装FastDFS需要先将官网下载的源码进行编译 编译依赖gcc环境 如果没有gcc环境 需要安装gcc yum install y gcc gcc c 2 安装libevent 运行
  • 文件包含漏洞学习

    一 文件包含简介 开发人员都希望代码更加灵活 所以通常会将被包含的文件设置为变量 用来进行动态调用 正是这种灵活性 从而导致客户端可以调用一个恶意文件 造成文件包含漏洞 1 文件包含函数 PHP中文件包含函数有以下四种 require re
  • H5 Canvas与SVG的比较

    转载 https www w3school com cn html5 html 5 canvas vs svg asp 两者都能够在在浏览器中绘图 但两者之间还是不一样的 Canvas 通过Javascript来绘制2D图形 是逐像素进行渲
  • STM32HAL库和STC51同时操作多个IO口

    STM32同时将PC13 PC14 PC15拉低 拉高 根据 define GPIO PIN 13 uint16 t 0x2000U Pin 13 selected define GPIO PIN 14 uint16 t 0x4000U P
  • R语言注意事项列表

    R语言注意事项列表 R语言是一种功能强大且广泛使用的编程语言 特别适用于数据分析和统计建模 在使用R语言进行编程和数据处理时 以下是一些需要注意的事项 以帮助您更有效地使用该语言 使用合适的注释 在编写R代码时 使用注释来解释代码的功能和目
  • 分别用 VTK 体绘制和面绘制来实现医学图像三维重建

    关注公众号 小张Python 为你准备了 50 本Python 精品电子书籍 与 50G 优质视频学习资料 后台回复关键字 1024 即可获取 如果对博文内容有什么疑问 后台添加作者 个人微信 可与作者直接进行交流 序言 VTK介绍 VTK
  • win10自带输入法微软拼音切换简体繁体

    ctrl shift f
  • 用Python自动生成Excel报表

    在日常工作中 可能会有一些重复无聊的任务 比如说 从 Excel 或数据库中收集一些数据 设置相应的数据格式并做成报表 类似这种重复无聊的任务 我们完全可以交给 Python 去自动完成 只要第一次把 Python 代码写好 以后就可以一键
  • java 一点小小的体会

    云应用的大量应用 使得网络资源得到高效利用 云开放平台的大量使用 使得我们的个人应用及数据存储有一个新的发展 你的个人数据可以存储在云上 这样你可以节省了你的资源 当我们使用时可以随时存取 不用一次次加大你的硬盘 我们可以把自己的应用部署在
  • lay-verify 无效

    lay verify 无效 使用lay verify有两个需要注意的地方 form标签需要添加 class layui form 提交按钮需要添加 lay submit 如
  • 【基于DL的图像语义分割】TensorFlow语义分割套件开源了ECCV18旷视科技BiSeNet实时分割算法

    Github上的开源工程Semantic Segmentation Suite 语义分割套件 由来自美国建筑智能服务公司的机器学习工程师George Seif创建 使用Tensorflow实现了大量最新的语义分割算法 最近 该开源库新加入了
  • 第二章练习

    下载了dosbox后 使用debug链接在 https blog csdn net weixin 44307065 article details 104985457 跟着书慢慢看 并且练习 r查询寄存器 r ip 查询修改指示器数值 d
  • 为什么说数据、算法、平台或硬件是AI发展的三个要素

    近年来 人工智能 AI 已成为科技领域的热点话题 而数据 算法 平台和硬件被认为是AI发展的三个关键要素 本文将探讨为什么这些要素对于AI的发展至关重要 并分析它们之间的相互关系 一 数据 AI的基石 数据是AI发展的基石 提供了用于训练和
  • UE4 指定范围内 随机位置 批量生成AI角色蓝图

    一 蓝图设置 1 添加生成范围 2 调整范围大小 3 参数及蓝图设置 数量默认为0
  • 学习嵌入式-4412开发板入门和提高_围观资料

    1 入手门槛还是有一定难度的 需要有C语言基础的2 目前4412的资料已经积累了100G以上的资料 自家提供 不是拼凑起来的3 自家开发了一套教程 资料已经分类整理 我们可以更有效率的去学习4 视频教程讲义可以像单片机一样简单 录制会根据当
  • Siebel 开发规范

    Siebel Configuration and Development Guideline 1 Objectives 3 2 Application Development and Customization Guidelines 4 2
  • mysql 连接url中useUnicode=true & characterEncoding=UTF-8 的作用

    我们在连接mysql数据库的时候一般都会在url后面添加useUnicode true characterEncoding UTF 8 但是问什么要添加呢 添加的作用是 指定字符的编码 解码格式 例如 mysql数据库用的是gbk编码 而项

随机推荐

  • 介绍Unity中相机的投影矩阵与剪切图像、投影概念

    这篇作为上一篇的补充介绍 主要讲Unity里面的投影矩阵的问题 上篇的链接写给VR手游开发小白的教程 三 UnityVR插件CardboardSDKForUnity解析 二 关于Unity中的Camera 圣典里面对每一项属性都做了简要的介
  • java 如何使用ocr_如何在java项目中利用ocr实现一个图片文字识别功能

    如何在java项目中利用ocr实现一个图片文字识别功能 发布时间 2020 12 02 15 11 14 来源 亿速云 阅读 101 作者 Leah 这期内容当中小编将会给大家带来有关如何在java项目中利用ocr实现一个图片文字识别功能
  • openGL之API学习(二零一)glTexGen

    用来计算纹理坐标 如果物体有缩放 这个函数生成的坐标有问题osg学习 五十二 加载的牛模型cow osg没有纹理 黑色 hankern的博客 CSDN博客 需要自定义着色器进行修正 opengl es 3 2和opengl 4 5都不再支持
  • [从零开始学DeepFaceLab-4]: 使用-命令行八大操作步骤-第1步:命令行环境准备

    目录 总体流程 步骤1 命令行环境准备 1 1 命令 1 clear workspace bat 必选 2 预备知识 2 1 根目录结构
  • Beats — Filebeat 自定义标签+多日志采集

    Beats Filebeat 进阶 一 自定义采集数据标签 自定义标签 自定义字段 终端端显示信息 完整的一个 自定义标签 自定义字段的 filebeat采集日志 logstash 引用标签 对索引进行输出 二 Filebeat 采集多个日
  • pandas 中delete、drop函数的用法

    这两个函数是数据处理是比较常用的函数 在这里重点总结一下 为了方便自己的记忆 也可以和大家一起做一下分享 首先看一下drop函数 DataFrame drop labels None axis 0 index None columns No
  • 2022-VS2015-ACE+TAO(7.0.5)+CIAO+OpenDDS 3.16 编译

    ACE TAO 7 0 5 CIAO OpenDDS 3 16 编译 采用ACE TAO 7 0 5 CIAO 3 10 DANCE OpenDDS 3 16 编译构建OpenDDS系统 本文目的尽量简洁说明ACE TAO CIAO DAN
  • 记一次feign文件上传配置引起的 “xx is not a type supported by this encoder.” 错误

    这里先给出正确的配置 不需要额外新增配置编码器 Encoder 网上大部分会让配置一个SpringFormEncoder 会有隐患问题 下面会详细说明 spring 默认的 FeignClientsConfiguration 中的 Page
  • Java二叉树3

    1 给定一个二叉树 找到该树中两个指定节点的最近公共祖先 最近公共祖先的定义为 对于有根树 T 的两个节点 p q 最近公共祖先表示为一个节点 x 满足 x 是 p q 的祖先且 x 的深度尽可能大 一个节点也可以是它自己的祖先 提示 树中
  • SRAM、DRAM、硬盘、ROM、RAM、EPROM、FLASH区别和联系

    SRAM和DRAM的区别和联系 电脑中的内存属于DRAM CPU中的二级缓存属于SRAM 存储原理 RAM Random Access Memory 随机存取存储器 主要的作用就是存储代码和数据供CPU 在需要的时候调用 但是这些数据并不是
  • win7上搭建android开发环境使用appium自动化测试android应用(一)

    如何通过appium在win7上使用android模拟器测试android应用 本编文章参考了大量网络现存文章 并根据自己的实际情况编写 希望对想用appium的初学者能有所帮助 一 为什么选择appium 你不需要以任何方式重新编译或者修
  • Android Socket 服务器本地发送图片给客户端

    第一步服务端 public static void main String arges 服务器发送图片给客户端 new Thread Override public void run System out println 发送图片信息 Se
  • Android Studio 入门笔记 (二) Activity 和 Application 简介

    Activity用于提供可视化用户界面的组件 可以与用户进行交互完成某项任务 例如拨号 拍照 和 发送e mail等 Activity是Android应用程序的基本组成单位 每一个Activity被赋予一个窗口 用于绘制用户界面 一个Act
  • 区块链技术系列(3)- Fabric基础架构原理

    前言 对于区块链方面多技术 我还是建议大家多看英文文档 多利用Google来搜索技术文章 怎么搭建自己专属V P N来访问Google 请看我之前发的文章 新人如何快速搭建自己的个人网站以及自己专属V P N代理 Linux基金会于2015
  • c++Lab-虚函数

    c Lab 虚函数 里氏转换原则 c 的虚函数 虚函数的实现机制 去掉virtual关键字 获取普通函数和虚函数的地址 机制 里氏转换原则 原文是派生的子类可以用于直接替代其基类 这个是一个很有意思也很常用的原则 当然也很重要 一般在面向对
  • NBIOT连接阿里云控制台(MQTT连接阿里云控制台)

    首先使用MQTT工具连接阿里云平台进行测试之后再使用NBIOT连接控制台 这里主要讲解MQTT连接阿里云的步骤 1 注册或登录阿里云账号 自行前往阿里云官网注册 2 进入物联网界面 首先点击阿里云旁边1位置的选项进入如下界面 找到物联网IO
  • HTTP 请求和 RPC 调用

    rpc字面意思就是远程过程调用 只是对不同应用间相互调用的一种描述 实现方式可以是tcp和http 这里我说一种rpc实现 可以对照dubbo rpc最关键的地方有请求体的封装 响应体的封装以及客户端调用的封装 求体 服务类class 一般
  • 基于Android的视频分享平台的设计与实现

    基于Android的视频分享平台的设计与实现 摘 要 短视频平台是以特定群众为目标的差异化群体定位工具 其利用自身的便捷性可以实现视频的随时拍摄和随时上传 可以产生亚文化圈的萌芽 这种开放便利的特性在吸引了广大用户的同时 也在一定程度上解决
  • 密码学理论11:公钥加密

    公钥加密概述 一方 接收方 生成一对密钥 pk sk 分别称为公钥和私钥 发件人使用公钥加密消息 接收方使用私钥解密生成的密文 当 Alice 得知 Bob 想与她通信时 她可以生成 pk sk 假设她还没有这样做 然后将 pk 明文发送给
  • python读取中编码错误(illegal multibyte sequence )

    读取中文txt文件时 经常会出现 gbk codec can t decode bytes in position 31023 illegal multibyte sequence 主要讲一种情况就是文章中含有utf 8或gbk无法编码的字