urlopen() gbk 页面时 Python 中的编码问题

2024-02-07

我的代码在这里：

# coding:utf-8

if __name__ == '__main__':
    from urllib2 import urlopen
    url = 'http://iccna.blog.sohu.com/164572951.html'
    data = urlopen(url).read()
    soup = BeautifulSoup(data,fromEncoding='gb18030')
    print WebExtractor(soup)

但是调试的时候，数据是这样的：

��5h�,��4�H�5��VM��\

我应该怎么做才能获得 BeautifulSoup 的正确数据？谢谢！

问题是服务器返回的是Gzip压缩的数据。尝试这个：

#-*- coding: utf-8 -*-
from __future__ import print_function

import gzip
import StringIO
import urllib2
from BeautifulSoup import BeautifulSoup

url = 'http://iccna.blog.sohu.com/164572951.html'
response = urllib2.urlopen(url)
data = response.read()
data = StringIO.StringIO(data)
gzipper = gzip.GzipFile(fileobj=data)
html = gzipper.read()
soup = BeautifulSoup(html, fromEncoding='gbk')
print(soup)

汉字在我的系统上看起来仍然错误，但这可能会给你正确的方向。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

encoding

urlopen() gbk 页面时 Python 中的编码问题的相关文章

Google 政策更新后不允许仅使用用户名和密码，如何使用 python 发送电子邮件？

我正在尝试学习如何使用 python 发送电子邮件我读过的所有网络教程都解释了如何使用 Gmail 进行操作但是从 2022 年 5 月 30 日起尽管每个人都可以自由地使用自己的帐户做任何他想做的事情 Google 制定了一项新政
Pythonanywhere 安装并导入新模块

我是 Pythonanywhere 的新手想要安装 soundcloud Python 模块我打开了 Bash 控制台并给出了pip install user soundcloud命令它似乎已经安装正如我使用时在模块列表中看到的那样
如何在保留矩阵维度的同时序列化 numpy 数组？

numpy array tostring似乎没有保留有关矩阵维度的信息请参阅这个问题 https stackoverflow com q 30697769 1156707 要求用户发出调用numpy array reshape 有没有办法
Tensorflow 导入错误：没有名为“tensorflow”的模块

我在 Windows Python 3 5 Anaconda 环境中安装了 TensorFlow 验证成功有警告 tensorflow C gt python Python 3 5 3 英特尔公司默认 2017 年 4 月 27 日 1
SQLAlchemy 关系错误：对象没有属性“c”

I used sql自动编码 https code google com p sqlautocode 生成我的模型和所有关系我正在尝试做一个简单的查询例如 obj session query Venue filter Venue sym
在 HSV 颜色空间内定义组织学图像掩模的颜色范围（Python、OpenCV、图像分析）：

为了根据颜色将组织学切片分成多个层我修改了 OpenCV 社区提供的一些广泛分布的代码 1 我们的染色程序用不同的颜色标记组织横截面的不同细胞类型 B 细胞为红色巨噬细胞为棕色背景细胞核为蓝色 I m interested in se
会话cookie太大烧瓶应用程序[重复]

这个问题在这里已经有答案了我正在尝试使用会话本地加载某些数据并且它已经工作了一段时间但是现在我收到以下警告并且不再加载通过会话加载的数据 b session cookie 太大该值是 13083 字节但是标头需要 44 个
字典键中的通配符

假设我有一本字典 rank dict V 1 A 2 V 3 A 4 正如您所看到的我在一个 V 的末尾添加了一个虽然 3 可能只是 V 的值但我想要 V1 V2 V2234432 等的另一个密钥我想检查它 checker V30
使用 ruamel.yaml，如何使带有 NEWLINE 的变量成为不带引号的多行

我正在生成用作协议的 YAML 其中包含一些生成的 JSON import json from ruamel import yaml jsonsample id 123 type customer account other myyamel
使用 Python 将 Json 转换为换行 Json 标准

我有一个获取嵌套对象并删除所有嵌套的代码使对象平坦 def flatten json y param y Unflated Json return Flated Json out def flatten x name if type x
如何从张量流数据集迭代器返回同一批次两次？

我正在转换一些旧代码以使用数据集 API 此代码使用feed dict将一批数据送入列车运行实际上是三次然后重新计算损失以供显示使用同一批所以我需要一个迭代器来返回完全相同的批次两次或多次不幸的是我似乎找不到一种使用张量流数据集
python 从字典中获取唯一值

我想从我的字典中获取唯一的值 Input 320 167 316 0 319 167 401 167 319 168 380 167 265 166 期望的输出 167 0 168 166 我的代码 unique values sorted
Keras CNN 回归模型损失低，准确度为 0

我在 keras 中遇到这个 NN 回归模型的问题我正在研究一个汽车数据集以根据 13 个维度预测价格简而言之我已将其读取为 pandas 数据帧将数值转换为浮点数缩放值然后对分类值使用 one hot 编码这创建了很多新列
Python - 根据条件调用函数

我想知道是否有一种简洁的方法来根据条件调用函数我有这个 if list 1 some dataframe df myfunction 我想知道这是否有可能三元运算符 http book pythontips com en latest t
当输入是 DataFrame 时，在seaborn中对箱线图进行分组

我打算在一个图中绘制多个列pandas dataframe 全部按另一列分组使用groupby inside seaborn boxplot 对于类似的问题这里有一个很好的答案matplotlib matplotlib 分组箱线图 ht
Mxnet - 缓慢的数组复制到 GPU

我的问题我应该如何在 mxnet 中执行快速矩阵乘法我的具体问题数组复制到 GPU 的速度很慢对此我们能做些什么呢我创建随机数组将它们复制到上下文中然后相乘 import mxnet as mx import mxnet nd
如何导入 boto3 ssm ParameterNotFound 异常？

我想import the exception当一个boto3 ssm找不到参数get parameter 我正在尝试添加一些额外的内容ssm的功能moto图书馆但我现在很困惑 gt gt gt import boto3 gt gt gt
通过 Selenium 和 python 切换到 iframe

我如何在硒中切换到这个 iframe 只知道您可以使用 XPath 来定位 iframe driver find element by xpath iframe name Dialogue Window Then switch to th
在绘图中的线间隙之间添加注释

I have a graph like this 而不是在上面的日子symbol 我想知道是否有办法可以在行之间添加此注释从一个点到另一个点如果以防万一这可能是重复的我深表歉意 This is my expected output
网站可以检测您何时将 Selenium 与 chromedriver 结合使用吗？

我一直在使用 Chromedriver 测试 Selenium 我注意到有些页面可以检测到您正在使用 Selenium 即使根本没有自动化即使我只是通过 Selenium 使用 Chrome 手动浏览 Xephyr https en wi

随机推荐

C 解引用指针

我开始学习C 但我不知道为什么应用程序总是崩溃 include
将 Tableau 升级到 9.2 后，我无法在 Tableau Server (9.1) 中发布工作簿？

有人经历过这个吗这是非常令人沮丧的因为我花了几个小时准备升级后的 9 2 版本的工作簿我尝试发布到 9 1 Tableau Server 但它不允许看来我可能还得再花几个小时在 9 0 上重新创建仪表板 9 0 与我们拥有的 Tab
全局安装 Composer 以供 Laravel 使用？

我在全局安装作曲家时遇到一些问题我将 Composer 安装到 C wamp bin php php5 4 12 目录中我使用的是 WAMP 并使用以下命令在 C wamp www project 中创建一个项目 php compose
无法清除 WPF ListBox.SelectedItems 集合

我似乎无法清除数据绑定 WPF ListBox 的 SelectedItems 集合我尝试过调用 ListBox SelectedItems Clear 尝试将 SelectedIndex 设置为 1 将 SelectedItem 设置为
菜单项的自定义视图

我需要有动态菜单项用户定义颜色的圆圈如下所示触摸此菜单项将打开一个颜色选择器现在我有示例 ColorPickerIcon 扩展了 View public class ColorPickerIcon extends View pri
Python subprocess.Popen.wait() 即使发生错误也返回 0

我正在通过 Python 的子进程模块运行命令行实用程序我使用命令行参数和 stdout subprocess PIPE 创建一个 subprocess Popen 对象然后使用 subprocess wait 等待任务完成并返回返回代
在 Google 图表中显示/隐藏线条/数据

我正在尝试制作一个包含 2 条线的谷歌折线图您应该能够通过两个复选框打开和关闭它们显示隐藏有人有任何想法可以做到这一点或者只是给出一些指示吗我的猜测是一些 onClick jQuery 的东西
TS2307：找不到模块“类验证器”

我正在尝试使用类验证器 https github com pleerock class validatorTypescript 项目中的模块但是当我编译打字稿时会发出以下警告 src main ts domain Order ts 1
获取并在 Woocommerce 单一产品页面上显示税率

我正在尝试找到一种方法如何仅显示产品所具有的税率 16 或 7 基本上这个想法是应该有一个静态税价格包含16 税费 or 价格含7 税因此百分比利率应该根据产品的利率而动态变化知道如何解决这个问题我找到的所有解决方案都显示完整
RabbitMQ 中的消息序列出现意外行为

我想实现类似于选项 3 的 RabbitMQ 拓扑here https engineering nanit com rabbitmq retries the full story ca4cc6c5b493 除了一些差异新拓扑每天应该处理几
为什么我要使用无限超时的 Sleep() ？

据 MSDN 报道 Sleep http msdn microsoft com en us library ms686298 VS 85 aspx可以提供INFINITE值并且表明暂停不应超时为什么我要调用 Sleep INFINITE
是否有工具可以找出 PC 上安装了哪个 .NET 框架？

我知道官方的方法是注册表但这有点耗时我必须检查几台电脑上安装的版本它们都没有 VisualStudio 但它们全部可能 a NET 框架的版本既然热水可能已经存在那么我在哪里可以找到它呢这是一个免费的轻量级工具可以快速完成此
我们的记录中不存在 AWS 访问密钥 ID

我创建了一个新的访问密钥并在 AWS CLI 中配置了该密钥aws configure 它创造了 ini文件输入 aws config 当我跑步时aws s3 ls它给调用 ListBuckets 操作时发生客户端错误 InvalidAc
PHP 网址问题

有没有办法可以使用 PHP 从链接中删除变量例如如果我有一个读取的链接http localhost link index php s 30 p 3我该如何去掉 s 30 p 3所以我的链接是这样的http localhost link
如何将 URL 中的图像附加到 FormData - Javascript

这是我的小 JavaScript 代码
Caffe：如何通过代码获取`solver.prototxt`参数？

我想访问solver prototxt参数如base lr 基础学习率或weight decay来自Python代码有什么方法可以从solver net目的谢谢根据本教程 http nbviewer jupyter org gith
iOS 15 safari 工具栏现在在元素内滚动时隐藏

在 iOS 15 上无论您有顶部还是底部工具栏在元素内滚动都会导致窗口调整大小工具栏消失在 iOS 14 上只有当主体滚动时才会发生这种情况请参阅下面的 gif 注意黄色区域是一个带有溢出滚动的 div 并且主体不滚动 iOS
使用 JavaScript 截断文本并附加省略号

如何截断字符串并附加省略号我想截断类似的东西 this is a very long string to this is a ve function truncate input if input length gt 5 return i
检查 Activity 是否正在从 Service 运行

怎样才能一个Service检查其应用程序之一是否Activity正在前台运行使用以下方法和您的包名称如果您的任何活动位于前台它将返回 true public boolean isForeground String myPackage
urlopen() gbk 页面时 Python 中的编码问题

我的代码在这里 coding utf 8 if name main from urllib2 import urlopen url http iccna blog sohu com 164572951 html data urlopen u

urlopen() gbk 页面时 Python 中的编码问题

urlopen() gbk 页面时 Python 中的编码问题 的相关文章

随机推荐

热门标签

urlopen() gbk 页面时 Python 中的编码问题的相关文章