【解决新手爬虫 python3】UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘‘ in position

2023-11-07

解决新手爬虫遇到的UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position 7084: illegal multibyte sequence

起初的代码

from urllib.request import urlopen
html=urlopen("网址")
with open("xzcf.html",mode="w") as f:
    f.write(html.read().decode("UTF-8"))
print("over")

会报错:UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\xa0’ in position 7084: illegal multibyte sequence

试了网上的 titleUni = titleHtml.decode(“UTF-8”, ‘ignore’),但是还是报相同的错误,最后是在with open(“xzcf.html”,mode=“w”) as f:括号里加上encoding=‘utf-8’,正确的代码:

with open("xzcf.html",mode="w", encoding='utf-8') as f:
    f.write(html.read().decode("UTF-8"))
print("over")
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【解决新手爬虫 python3】UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘‘ in position 的相关文章

  • Django REST序列化器:创建对象而不保存

    我已经开始使用 Django REST 框架 我想做的是使用一些 JSON 发布请求 从中创建一个 Django 模型对象 然后使用该对象而不保存它 我的 Django 模型称为 SearchRequest 我所拥有的是 api view
  • 如何在python中读取多个文件中的文本

    我的文件夹中有许多文本文件 大约有 3000 个文件 每个文件中第 193 行是唯一包含重要信息的行 我如何使用 python 将所有这些文件读入 1 个文本文件 os 模块中有一个名为 list dir 的函数 该函数返回给定目录中所有文
  • 使用 openCV 对图像中的子图像进行通用检测

    免责声明 我是计算机视觉菜鸟 我看过很多关于如何在较大图像中查找特定子图像的堆栈溢出帖子 我的用例有点不同 因为我不希望它是具体的 而且我不确定如何做到这一点 如果可能的话 但我感觉应该如此 我有大量图像数据集 有时 其中一些图像是数据集的
  • pandas 替换多个值

    以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
  • 如何使用包含代码的“asyncio.sleep()”进行单元测试?

    我在编写 asyncio sleep 包含的单元测试时遇到问题 我要等待实际的睡眠时间吗 I used freezegun到嘲笑时间 当我尝试使用普通可调用对象运行测试时 这个库非常有用 但我找不到运行包含 asyncio sleep 的测
  • SQL Alchemy 中的 NULL 安全不等式比较?

    目前 我知道如何表达 NULL 安全的唯一方法 SQL Alchemy 中的比较 其中与 NULL 条目的比较计算结果为 True 而不是 NULL 是 or field None field value 有没有办法在 SQL Alchem
  • 使用 Pycharm 在 Windows 下启动应用程序时出现 UnicodeDecodeError

    问题是当我尝试启动应用程序 app py 时 我收到以下错误 UnicodeDecodeError utf 8 编解码器无法解码位置 5 中的字节 0xb3 起始字节无效 整个文件app py coding utf 8 from flask
  • NameError:名称“urllib”未定义”

    CODE import networkx as net from urllib request import urlopen def read lj friends g name fetch the friend list from Liv
  • feedparser 在脚本运行期间失败,但无法在交互式 python 控制台中重现

    当我运行 eclipse 或在 iPython 中运行脚本时 它失败了 ascii codec can t decode byte 0xe2 in position 32 ordinal not in range 128 我不知道为什么 但
  • python 集合可以包含的值的数量是否有限制?

    我正在尝试使用 python 设置作为 mysql 表中 ids 的过滤器 python集存储了所有要过滤的id 现在大约有30000个 这个数字会随着时间的推移慢慢增长 我担心python集的最大容量 它可以包含的元素数量有限制吗 您最大
  • HTTPS 代理不适用于 Python 的 requests 模块

    我对 Python 还很陌生 我一直在使用他们的 requests 模块作为 PHP 的 cURL 库的替代品 我的代码如下 import requests import json import os import urllib impor
  • Python:尝试检查有效的电话号码

    我正在尝试编写一个接受以下格式的电话号码的程序XXX XXX XXXX并将条目中的任何字母翻译为其相应的数字 现在我有了这个 如果启动不正确 它将允许您重新输入正确的数字 然后它会翻译输入的原始数字 我该如何解决 def main phon
  • Numpy 优化

    我有一个根据条件分配值的函数 我的数据集大小通常在 30 50k 范围内 我不确定这是否是使用 numpy 的正确方法 但是当数字超过 5k 时 它会变得非常慢 有没有更好的方法让它更快 import numpy as np N 5000
  • Python 3 中“map”类型的对象没有 len()

    我在使用 Python 3 时遇到问题 我得到了 Python 2 7 代码 目前我正在尝试更新它 我收到错误 类型错误 map 类型的对象没有 len 在这部分 str len seed candidates 在我像这样初始化它之前 se
  • 如何将 PIL 图像转换为 NumPy 数组?

    如何转换 PILImage来回转换为 NumPy 数组 这样我就可以比 PIL 进行更快的像素级转换PixelAccess允许 我可以通过以下方式将其转换为 NumPy 数组 pic Image open foo jpg pix numpy
  • Python:计算字典的重复值

    我有一本字典如下 dictA unit1 test1 alpha unit1 test2 beta unit2 test1 alpha unit2 test2 gamma unit3 test1 delta unit3 test2 gamm
  • 设置 torch.gather(...) 调用的结果

    我有一个形状为 n x m 的 2D pytorch 张量 我想使用索引列表来索引第二个维度 可以使用 torch gather 完成 然后然后还设置新值到索引的结果 Example data torch tensor 0 1 2 3 4
  • 使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

    我有一个 Pandas 数据框 它有两列 一列 进程参数 列 包含字符串 另一列 值 列 包含相应的浮点值 我需要过滤出部分匹配列 过程参数 中的一组键的子数据帧 并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce
  • 在 Python 类中动态定义实例字段

    我是 Python 新手 主要从事 Java 编程 我目前正在思考Python中的类是如何实例化的 我明白那个 init 就像Java中的构造函数 然而 有时 python 类没有 init 方法 在这种情况下我假设有一个默认构造函数 就像
  • Python - 字典和列表相交

    给定以下数据结构 找出这两种数据结构共有的交集键的最有效方法是什么 dict1 2A 3A 4B list1 2A 4B Expected output 2A 4B 如果这也能产生更快的输出 我可以将列表 不是 dict1 组织到任何其他数

随机推荐

  • 【Linux】list_for_each_entry用法

    参考 http blog sina com cn s blog 5e99b41e0100rxgf html http hi baidu com shiftedmind blog item 1a7c8381e6a67fa56d8119da h
  • udevadm命令详解

    udevadm 后接一个命令和命令指定选项 它控制了udev运行的行为 处理内核事件 控制事件队列 并且提供简单的调试机制 选项 debug 打印错误信息 version 打印版本信息 help 帮助文档 udevadm info opti
  • 微信小程序实现简单的树形选择控件------treeSelect

    前段时间公司突然要写小程序 项目中有一个树形控件 我找了很久的插件和框架 没有发现小程序能用的 只能硬着头皮自己写 老规矩 先贴图 为什么要特意强调此图标呢 因为该图标为中间状态 此处是我后期要优化的地方 在下面的代码中还未实现 我有了初步
  • 关于工作效率的心得分享

    关于工作效率的心得分享 作者 许诗淇 高级视觉设计师 负责过QQ视觉主设工作 目前主导RTX项目设计 个人站点 这是去年11月底在小组里分享过的工作效率心得 在这里也跟大家分享一下工作 快 感哈哈 我相信大家应该都有过工作效率的些许烦恼 而
  • 滚动穿透的6种解决方案(转载)

    原文链接 滚动穿透的6种解决方案 在移动端中 如果我们使用了一个固定定位的遮罩层 且其下方的dom结构的宽度 高度超出屏幕的宽度 高度 那么即使遮罩层弹出后铺满了整个屏幕 其下方的dom结构依然可以滚动 这就是大家所说的 滚动穿透 而且经常
  • echarts X轴像直尺一样设置刻度

    在做老师的项目的时候 老师让我们实现X轴的直尺刻度显示 网上查了查相关代码 大家都没有明确介绍 因此我在这里记录一下 自己的学习 先看实现效果 对echarts的xAxis yAxis这两个属性进行修改即可实现 xAxis 第一个 是原X轴
  • npm install、npm install --save与npm install --save-dev (转)

    仅供学习参考 侵权删 以npm安装msbuild为例 npm install msbuild 会把msbuild包安装到node modules目录中 不会修改package json 之后运行npm install命令时 不会自动安装ms
  • qml学习之qwidget与qml结合使用并调用信号槽交互

    学习qml系列之一 说明 学习qml系列之qwiget和qml信号槽的交互使用 并在qwidget中显示qml界面 在qml中发送信号到qwidget里 在qwidget里发送信号给qml 在qwidget里面调用qml界面方式 方式一 使
  • 测试与开发模型

    测试与开发模型 测试的工作流程 1 需求分析 gt 2 测试计划和测试方案 gt 3 测试用例设计 gt 4 测试用例执行 gt 5 评估阶段 测试报告 1 需求分析 分许需求的点 参与需求评审 快速熟悉项目 2 测试计划和测试方案 计划
  • tq210-kernel 4.1.33移植(1)基本移植

    这篇文章讲述一个新的kernel的移植 1 到kernel org下载4 1 33 修改顶层Makefile ARCH arm CROSS COMPILE arm Linux 根据自己的环境修改交叉编译器前缀 如果发现 tmp cc8nFJ
  • 【Attention机制】YOLOX模型改进之(SE模块、ECA模块、CBAM模块)的添加

    文章目录 YOLOX模型改进 模块简介 SE模块 SE模块的具体介绍 插入位置 主要代码 CBAM模块 插入位置 主要代码 目的动机 ECA模块 插入位置 主要代码 模块添加 建立attention py 修改yolo pafpn py文件
  • 在Macbook Pro上为TensorFlow设置GPU

    最近忽然发现自己的Macbook Pro上装有一块额外的NVIDIA GeForce GT 750M显卡 于是蠢蠢欲动想装一个TensorFlow 试试在GPU上跑算法的性能 先进入TensorFlow官网的Mac安装页面 发现要先装一堆N
  • 循环语句

    for循环 for循环其实本质上与while循环本质上是一样的 标准形式 for 语句1 表达式的初始化 语句2 测试条件 语句3 执行更新 语句内容 关于for循环的结构 语句1是表达式是初始化 只会在程序开始的时候执行一次 语句2是判断
  • EMC测试项分类

    EMC包含两大项 EMI 干扰 和 EMS 敏感度 抗干扰 EMI测试项包括 RE 辐射 发射 CE 传导干扰 Harmonic 谐波 Flicker 闪烁 EMS测试项包括 ESD 静电 EFT 瞬态脉冲干扰 DIP 电压跌落
  • linux 日志 硬件检测,在Linux上分析硬件检测日志

    数据库管理员在数据库的运维过程中或多或少要和操作系统乃至硬件打上交道 分析数据库故障时操作系统日志往往也是一个重要的线索来源 以Linux操作系统为例 其主要的日志子系统 syslog subsystem 可大致分为三类 即1 用户连接日志
  • IKE主模式及预共享密钥认证配置实验

    一 组网和实验环境 按如上的接口ip先作配置 本文实验采用的交换机是H3C模拟器 下载地址如下 http forum h3c com forum php mod viewthread tid 109740 highlight H3C E6
  • L1-018 大笨钟(java)

    1 题目详情 微博上有个自称 大笨钟V 的家伙 每天敲钟催促码农们爱惜身体早点睡觉 不过由于笨钟自己作息也不是很规律 所以敲钟并不定时 一般敲钟的点数是根据敲钟时间而定的 如果正好在某个整点敲 那么 当 数就等于那个整点数 如果过了整点 就
  • kerberos认证系统服务器,基于Kerberos认证的NFS服务器搭建

    NFS是Linux下常用的共享软件 v3版本不太安全 无法进行用户认证 这里简单说明一下V4版本和Kerberos配合实现认证访问的过程 0 准备工作 跟之前的Kerberos一样 需要3台机器来做试验 很多资料上写的是两台 即kdc ni
  • 2022年11月14日--11月25日(ue4 tf1视频教程+socket视频教程+cesium for ue源码抄写,本周10小时,合计1747小时,剩余8253小时)

    工作内容中有高并发 我感觉cesium for ue除了例子外 很难突破 所以把网络视频教程学下 学习不是难事 难的是没有资料 从0到1 目前 mysql 7 1 tf1 4 4 oss 12 1 蓝图反射 1 7 moba 1 5 web
  • 【解决新手爬虫 python3】UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘‘ in position

    解决新手爬虫遇到的UnicodeEncodeError gbk codec can t encode character xa0 in position 7084 illegal multibyte sequence 起初的代码 from