爬虫乱码UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\xa0’ in position

2023-11-12

在Python中将网址写入文件的时候,

会碰到:UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\xa0’ in position 0这个问题。

其实就是在windows中,新建的文本文件的默认编码是gbk.

编码解码需要对应

1、我们需要更改一下编码方式:如

with open("F:\\1.html","w",encoding="utf-8") as file:

2、对写入数据关于response.text 和response.content的区别我们也需要了解

response.text

类型 : str  
解码类型:根据HTTP头部对响应的编码做出有根据的推测,推测的文本编码
如何修改编码方式:response.encoding="gbk"

response.content

 类型:bytes
- 解码类型: 没有指定
- 如何修改编码方式:response.content.deocde(“utf-8”)

总而言之:

resp.text返回的是Unicode型的数据。
resp.content返回的是bytes型也就是二进制的数据。

3、实例
对二数据进行编码解码

response=requests.get("https://2.python-requests.org//zh_CN/latest/user/quickstart.html")

content=response.content

with open("F:\\1.html","w",encoding="utf-8") as file:
    file.write(content.decode("utf-8"))
    file.close()

4、实例二


response=requests.get("https://2.python-requests.org//zh_CN/latest/user/quickstart.html")

print(response.encoding)
with open("f:\\2.html","w",encoding="ISO-8859-1") as file:
    file.write(response.text)
    file.close()
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫乱码UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\xa0’ in position 的相关文章

随机推荐

  • Redis——zset类型详解

    概要 zset是有序集合 将zset中的members引入一个属性score 根据这个属性值来进行排序 其中members不可以重复 score可以重复 按照字典序排序 默认按照升序排序 有序集合中提供指定分数和元素范围查找 计算成员排名功
  • grep中加单引号与不加引号的区别

    今天写命令时本想查找最后带标点的句子 结果发现不带引号时无法识别 grep n exp grep n exp 貌似不加单引号无法达到我们想要的效果 上网搜了一下 有人说是因为引号的作用 其实这在shell变量中就有介绍 明显的是 这里单引号
  • 借力计算机视觉及深度学习,纽卡斯尔大学开发实时、自动化奶牛跛行检测系统

    本文首发自 HyperAI超神经微信公众号 内容一览 近期 纽卡斯尔大学联合费拉科学有限公司联合开发了一个针对多头奶牛的自动化 实时跛行检测系统 该系统能够按照跛行评分系统将奶牛进行分类 并且准确度高达 94 100 目前 该研究成果已发表
  • Spring Boot系列 - 3. SpringBoot项目学习汇总

    原文地址 https blog csdn net hemin1003 article details 53217489 网络上很多关于SpringBoot的资料和代码 但有一些根本运行不了 有些博主的代码还故意藏着掖着 一定要加他的微信才能
  • php 文件上传抓包,详解文件上传漏洞

    介绍 在现代互联网网站中 上传文件基本上是一种常见的功能 允许用户上传一些图片 视频以及其他类型的文件 如果网站出现文件上传漏洞 那么恶意用户就可以将可执行脚本程序上传到web服务器中 获得网站权限 进一步 gongji web服务器 当上
  • skywalking agent监控java服务

    一 前言 skywalking agent可以监控的服务类型有多种 python go java nodejs服务等都可以监控 现在通过java服务来演示skywalking agent的使用 并且是使用容器的方式实现 二 部署skywal
  • 拓闻

    大数据时代的来临为众多企业带来了更多的全新的发展机遇 而搜索引擎已经成为大数据领域的一个核心应用 其重要性不言而喻 很多公司在大数据离线统计分析方面已经具备了一定的能力 但是 很多应用场景往往要求在数秒内完成对几亿 几十亿甚至几百上千亿的数
  • 史上最全 Appium 自动化测试从基础到框架实战精华学习笔记(一)

    1080 402 31 8 KB 对测试人来说 Appium 是非常重要的一个开源跨平台自动化测试工具 它允许测试人员在不同的平台 iOS Android 等 使用同一套 API 来写自动化测试脚本 这样可大幅提升代码复用率和工作效率 本文
  • UI自动化之python+pytest+allure+selenium

    一 基础搭建 1 下载pycharm 配置环境变量 2 安装对应版本的webdriver 将webdriver放在项目根目录 3 pip install pytest 4 pip install allure 二 框架设计 三 目录详解 1
  • docker安装redis教程

    通过Docker方式安装redis教程 1 拉取镜像 方式一 指定版本 拉取redis6 2 5版本 docker pull redis 6 2 5 方式二 拉取redis最新的版本 docker pull redis 查看docker的镜
  • Reactor和Proactor的区别

    一 实现方式 Reactor 采用同步IO 用户层执行IO操作时 处于挂起状态 等待内核层完成 图示如下 Proactor 采用异步IO 用户层执行IO操作时 可以一边等待内核操作IO 一边自己去处理其他事情 等内核操作IO结束后 用户层被
  • MySQL中的BLOB类型

    一 概念 BLOB binary large object 二进制大对象 是一个可以存储二进制文件的容器 在计算机中 BLOB常常是数据库中用来存储二进制文件的字段类型 BLOB是一个大文件 典型的BLOB是一张图片或一个声音文件 由于它们
  • 传递点的大小

    仍然用attribute 因为是顶点着色器 11
  • 博客要写得好,Emoji要用对!

    EMOJI 01 表情与心情 02 动作与身份 03 动物与植物 04 食品与饮料 05 旅行和地点 06 娱乐与活动 07 物品与工具 08 符号与标识 01 表情与心情 02 动作与身份
  • 华为OD机试 - 最差产品奖( Python)

    题目描述 A公司准备对他下面的N个产品评选最差奖 评选的方式是首先对每个产品进行评分 然后根据评分区间计算相邻几个产品中最差的产品 评选的标准是依次找到从当前产品开始前M个产品中最差的产品 请给出最差产品的评分序列 输入描述 第一行 数字M
  • 手把手教你,把3D模型从stl格式导出iges格式的方法

    工具 Hypermesh 注意 下载和安装视频在我的上传资源里面 记得安装路径不能有中文 自己的操作账户名也不能是中文的 方法 第一 按照如下步骤 导入stl模型 第二步 点击Shaded 按钮 显示实体网格 第三步 点击Geom下的sur
  • 自己搭的12V 电机驱动电路设计

    1 单MOS管驱动电路 采用P75NF75为主角构成 2 双MOS管电机驱动电路设计 采用D4184管组合 3 半桥驱动电路设计 采用BTS7960芯片 两路半桥构成全桥驱动电路
  • s3c6410 android 移植Step by step

    Report 2009 03 05 转载请说明出处 不得用于商业用途 Linux forum id hongjiujing Porting android on s3c6410 Environment ubuntu 8 10 Board X
  • KeilMDK编译错误Error: L6218E: Undefined symbol __aeabi_assert (referred from xxx.o).

    问题描述 AirPressure AirPressure axf Error L6218E Undefined symbol aeabi assert referred from mbrtu o 问题原因 Error L6218E Unde
  • 爬虫乱码UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\xa0’ in position

    在Python中将网址写入文件的时候 会碰到 UnicodeEncodeError gbk codec can t encode character xa0 in position 0这个问题 其实就是在windows中 新建的文本文件的默