Python - BeautifulSoup html解析处理gbk编码不佳 - 中文网页抓取问题

2023-12-13

我一直在修改以下脚本：

#    -*- coding: utf8 -*-
import codecs
from BeautifulSoup import BeautifulSoup, NavigableString,
UnicodeDammit
import urllib2,sys
import time
try:
    import timeoutsocket # http://www.timo-tasi.org/python/timeoutsocket.py
    timeoutsocket.setDefaultSocketTimeout(10)
except ImportError:
    pass

h=u'\u3000\u3000\u4fe1\u606f\u901a\u4fe1\u6280\u672f'

address=urllib2.urlopen('http://stock.eastmoney.com/news/1408,20101022101395594.html').read()
soup=BeautifulSoup(address)

p=soup.findAll('p')
t=p[2].string[:10]

输出如下：

print t

¡¡¡

print h

　　信息通

t

u'\xa1\xa1\xa1\xa1\xd0\xc5\xcf\xa2\xcd\xa8'

h

你'\u3000\u3000\u4fe1\u606f\u901a'

h.encode('gbk')

'\xa1\xa1\xa1\xa1\xd0\xc5\xcf\xa2\xcd\xa8'

简单地说：当我通过 BeautifulSoup 传入这个 html 时，需要 gbk编码的文本并认为是unicode，无法识别它需要首先被解码。但是，“h”和“t”应该相同，因为 h 只是我从 html 文件中获取文本并将其转换手动。

我该如何解决这个问题？

best

wheaton

该文件的元标记声称字符集是GB2312，但数据包含较新的字符GBK/GB18030这就是导致 BeautifulSoup 失败的原因：



simon@lucifer:~$ python
Python 2.7 (r27:82508, Jul  3 2010, 21:12:11) 
[GCC 4.0.1 (Apple Inc. build 5493)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import urllib2
>>> data = urllib2.urlopen('http://stock.eastmoney.com/news/1408,20101022101395594.html').read()
>>> data.decode("gb2312")
Traceback (most recent call last):
  File "", line 1, in 
UnicodeDecodeError: 'gb2312' codec can't decode bytes in position 20148-20149: illegal multibyte sequence

此时，UnicodeDammit 摆脱困境，尝试chardet, UTF-8最后Windows-1252，它总是成功的——从外观上看，这就是你得到的。

如果我们告诉解码器用“？”替换无法识别的字符，我们可以看到 GB2312 中缺少的字符：



>>> print data[20140:20160].decode("gb2312", "replace")
毒尾气二�英的排放难

使用正确的编码：



>>> print data[20140:20160].decode("gb18030", "replace")
毒尾气二噁英的排放难
>>> from BeautifulSoup import BeautifulSoup
>>> s = BeautifulSoup(data, fromEncoding="gb18030")
>>> print s.findAll("p")[2].string[:10]
　　信息通信技术是&

Also:



>>> print s.findAll("p")[2].string
　　信息通信技术是&ldquo;十二五&rdquo;规划重点发展方向，行业具有很强的内在增长潜
力，增速远高于GDP。软件外包、服务外包、管理软件、车载导航、网上购物、网络游戏、
移动办公、移动网络游戏、网络视频等均存在很强的潜在需求，使信息技术行业继续保持较
高增长。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Unicode

beautifulsoup

webscraping

unicodestring

Python - BeautifulSoup html解析处理gbk编码不佳 - 中文网页抓取问题的相关文章

使用 MongoDB 作为我们的主数据库，我应该使用单独的图数据库来实现实体之间的关系吗？

我们目前正在为一家专业公司内部实施类似 CRM 的解决方案由于存储信息的性质以及信息的不同值和键我们决定使用文档存储数据库因为它完全适合目的在本例中我们选择 MongoDB 作为此 CRM 解决方案的一部分我们希望存储实体之间的关
类的 IPython 表示

我正在使用我创建的模块尝试 IPython 但它没有显示类对象的实际表示相反它显示类似的内容 TheClass module TheClass name I heavily在这个模块中使用元类我有真正有意义的类表示应该向用户显示是
Python - 比较同一字典中的值

我有一本字典 d Trump MAGA FollowTheMoney Clinton dems Clinton Stein FollowTheMoney Atlanta 我想删除字符串列表中的重复字符串该字符串是键的值对于这个例子期望
如何在 __init__ 中使用await设置类属性

我如何定义一个类await在构造函数或类体中例如我想要的 import asyncio some code class Foo object async def init self settings self settings setti
在 Celery 任务中调用 Google Cloud API 永远不会返回

我正在尝试拨打外部电话Google Cloud Natural Language API从一个内Celery任务使用google cloud python包裹问题是对 API 的调用永远不会返回挂起 celery task def g
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
MongoEngine 查询具有以列表中指定的前缀开头的属性的对象的列表

我需要在 Mongo 数据库中查询具有以列表中任何前缀开头的特定属性的元素现在我有一段这样的代码 query mymodel terms term in query terms 并且这会匹配在列表 term 上有一个项目的对象该列表中的
Tensorboard SyntaxError：语法无效

当我尝试制作张量板时出现语法错误尽管开源代码我还是无法理解我尝试搜索张量板的代码但不清楚即使我不擅长Python 我这样写路径C Users jh902 Documents logs因为我正在使用 Windows 10 但我不确定
Python 3：将字符串转换为变量[重复]

这个问题在这里已经有答案了我正在从 txt 文件读取文本并且需要使用我读取的数据之一作为类实例的变量 class Sports def init self players 0 location name self players pla
无法导入 langchain.agents.load_tools

我正在尝试使用 LangChain Agents 但无法导入 load tools 版本 langchain 0 0 27 我尝试过这些 from langchain agents import initialize agent from
通过Python连接到Bigquery：ProjectId和DatasetId必须非空

我编写了以下脚本来通过 SDK 将 Big Query 连接到 Python 如下所示 from google cloud import bigquery client bigquery Client project My First Pr
pandas - 包含时间序列数据的堆积条形图

我正在尝试使用时间序列数据在 pandas 中创建堆积条形图 DATE TYPE VOL 0 2010 01 01 Heavy 932 612903 1 2010 01 01 Light 370 612903 2 2010 01 01 Me
如何使用 Python 3 检查目录是否包含文件

我到处寻找这个答案但找不到我正在尝试编写一个脚本来搜索特定的子文件夹然后检查它是否包含任何文件如果包含则写出该文件夹的路径我已经弄清楚了子文件夹搜索部分但检查文件却难倒了我我发现了有关如何检查文件夹是否为空的多个建议并且我尝
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
如何以正确的方式为独立的Python应用程序制作setup.py？

我读过几个类似的主题但还没有成功我觉得我错过或误解了一些基本的事情这就是我失败的原因我有一个用 python 编写的应用程序我想在标准 setup py 的帮助下进行部署由于功能复杂它由不同的 python 模块组成但单独
如何使用 Boto3 启动具有 IAM 角色的 EC2 实例？

我无法弄清楚如何使用指定的 IAM 角色在 Boto3 中启动 EC2 实例以下是迄今为止我如何成功创建实例的一些示例代码 import boto3 ec2 boto3 resource ec2 region name us west 2
如何在 Flask 中的视图函数/会话之间传递复杂对象

我正在编写一个 Web 应用程序当且仅当用户登录时该应用程序从第三方服务器接收大量数据这些数据被解析为自定义对象并存储在list 现在用户在应用程序中使用这些数据调用不同的视图例如发送不同的请求我不确定什么是最好的模式在视
python 对浮点数进行不正确的舍入

gt gt gt a 0 3135 gt gt gt print 3f a 0 314 gt gt gt a 0 3125 gt gt gt print 3f a 0 312 gt gt gt 我期待 0 313 而不是 0 312 有没有
如何将Python3设置为Mac上的默认Python版本？

有没有办法将 Python 3 8 3 设置为 macOS Catalina 版本 10 15 2 上的默认 Python 版本我已经完成的步骤看看它安装在哪里 ls l usr local bin python 我得到的输出是这样的

随机推荐

在Python中对类实例进行排序

python 2 7 使用什么来对普通类实例进行排序我对默认排序行为感兴趣假设我有课 class S pass 然后我可以创建几个实例并对它们进行排序 a S b S c S l a a b b c c sorted l 这将打印对象
Android 浏览器无法正确处理 touchmove 事件

当我尝试检查touchmove事件在这个 jsbin 演示它只在 Chrome 和 Opera for Android 中触发一次之后立即触发touchcancel事件而不是继续触发touchmove events 基于两者W3C 规范
MySQL：何时真正需要 MySQL 中的刷新权限？

创建新表和用户时我通常只调用以下命令 CREATE DATABASE mydb GRANT ALL PRIVILEGES ON mydb TO myuser localhost IDENTIFIED BY mypassword 我从来没有
尝试在 React 中导入组件时出现问题

我在尝试使用 React 导入组件时遇到问题 app js 1 Uncaught ReferenceError 未定义 require 于 5 12 在我 babel min js 24 在 r babel min js 24 在 e sr
在 Windows 7 上安装 Python 并分发会出现“写入失败...权限被拒绝”

我使用的是 Windows 7 我完全承认我不了解其权限模型我正在其他选项卡中阅读相关内容我的用户是管理员当我尝试运行 python allocate setup py 时出现写入失败权限被拒绝错误然后出现错误无法在安装
调用并行化 foreach 时出现问题

我在使用 System Threading Tasks Parallel ForEach 时遇到问题每个要更新的进度条的主体但Invoke方法有时会冻结我将代码附加到进度条和按钮的表单中 private void button1 Cl
如何显示MySQL中未完成的事务

我做了一些没有提交的查询然后应用程序被停止如何显示这些未结交易并提交或取消它们如何显示这些未结交易并提交或取消它们没有打开的事务 MySQL 将在断开连接时回滚事务您无法提交事务 IFAIK 您使用显示线程 SHOW FULL P
C# 中根据空格分割字符串

我有一个字符串 dexter 是好是坏我想通过根据空格分割该字符串来创建一个列表我使用以下代码实现了这一点 string ss dexter is good annd bad var s string IsNullOrEmpty ss
从 Nunit 获取失败测试列表

我有一个包含超过 8000 个测试的测试套件并且很难看出哪些测试在代码更改之间中断这些测试用例是从某些日志文件中自动提取的查询有没有一种简单的方法来获取 NUnit 运行的失败测试列表理想情况下我想比较运行之间哪些测试受到影响您
Protobuf-net 对 Dictionary/KeyValuePair 的支持是如何工作的？

我试图了解 protobuf net 的 Dictionary KeyValuePair 支持我们希望使用底层二进制流和从 java 生成的 proto 文件但生成的 proto 文件包含看起来像名为 Pair String Int32
iOS 应用程序捆绑包 ID 错误和 iTunesConnect

如本文所述SO entry 我在 iOS 应用程序应用程序上传器中遇到错误这些是我的价值观在钥匙串中我有这个证书 iPhone Distribution ExampleCompany DistCertificateID 在我的devel
获取Linux中每个进程的堆和堆栈的大小

我想知道Linux中每个进程的堆和堆栈的大小有什么办法可以找到吗我发现 sbrk 0 会给我堆的结尾但是如何找到堆的起始位置来获取堆大小呢另外关于堆栈大小是否有任何方法可以通过任何库调用或系统调用找到每个进程的堆栈开头和当前堆栈
Spring 4 i18n & l10n（无法更改 HTTP 接受标头）

我需要帮助来解决此错误消息我正在使用 spring 4 我想在我的项目中实现 i18n 和 l10n 当我尝试更改语言时会出现此消息下面是我的代码请问有人可以帮我解决这个问题吗 https i stack imgur com tK
didReceiveData 未获取所有数据

我正在尝试使用 NSURLConnection 下载 JSON 但除非我强制应用程序暂停几秒钟否则我获得的数据并不完整它总是在 2600 字节左右而我的响应应该在 70000 左右任何线索为什么会发生这种情况谢谢 void con
未检测到文档的语法约束（DTD 或 XML 模式）

我有这个 dtd http fast code sourceforge net template dtd但是当我包含在 xml 中时我收到警告未检测到文档的语法约束 DTD 或 XML 模式 xml 是
使用正则表达式捕获 html 标签内的内容

首先我知道这是一种不好的做法我已经回答了很多问题甚至这么说但需要澄清一下我被迫使用正则表达式因为该应用程序将正则表达式存储在数据库中并且只能以这种方式运行我绝对不能改变功能现在我们已经解决了这个问题因为我总是使用 DOM 方
无法使 PubNub WebRTC 教程正常工作

我正在尝试按照 PubNub 教程构建我的第一个 WebRTC 应用程序 https www pubnub com blog 2015 08 25 webrtc video chat app in 20 lines of javascrip
使用 FluentFTP 以最大值同时从 FTP 下载多个文件

我想从 FTP 目录递归下载多个下载文件为此我使用 FluentFTP 库我的代码是这样的 private async Task downloadRecursively string src string dest FtpClient
在本地使用 mpi 安装 fftw-2.1.5

我正在尝试使用 enable mpi 标志在带有 linux 的 IBM 集群上安装 fftw 2 1 5 库但此后我一直未能这样做我需要 fftw 版本 2 1 5 因为 GADGET2 代码需要该版本并且具有 mpi 支持首先
Python - BeautifulSoup html解析处理gbk编码不佳 - 中文网页抓取问题

我一直在修改以下脚本 coding utf8 import codecs from BeautifulSoup import BeautifulSoup NavigableString UnicodeDammit import urllib

Python - BeautifulSoup html解析处理gbk编码不佳 - 中文网页抓取问题

Python - BeautifulSoup html解析处理gbk编码不佳 - 中文网页抓取问题 的相关文章

随机推荐

热门标签

Python - BeautifulSoup html解析处理gbk编码不佳 - 中文网页抓取问题的相关文章