Beautiful Soup 4 find_all 找不到 Beautiful Soup 3 找到的链接

2023-11-26

我注意到一个非常烦人的错误：BeautifulSoup4（包：bs4）经常会发现比以前版本更少的标签（包：BeautifulSoup).

这是该问题的一个可重现的实例：

import requests
import bs4
import BeautifulSoup

r = requests.get('http://wordpress.org/download/release-archive/')
s4 = bs4.BeautifulSoup(r.text)
s3 = BeautifulSoup.BeautifulSoup(r.text)

print 'With BeautifulSoup 4 : {}'.format(len(s4.findAll('a')))
print 'With BeautifulSoup 3 : {}'.format(len(s3.findAll('a')))

Output:

With BeautifulSoup 4 : 557
With BeautifulSoup 3 : 1701

正如您所看到的，差异并不小。

以下是模块的确切版本，以防有人想知道：

In [20]: bs4.__version__
Out[20]: '4.2.1'

In [21]: BeautifulSoup.__version__
Out[21]: '3.2.1'

你有lxml已安装，这意味着BeautifulSoup 4将使用that标准库上的解析器html.parser option.

您可以将 lxml 升级到 3.2.1（对我来说，它会为您的测试页返回 1701 个结果）； lxml本身使用libxml2 and libxslt这也可能是罪魁祸首。您可能需要升级those相反/也。请参阅lxml 需求页面;目前建议使用 libxml2 2.7.8 或更高版本。

或者在解析 soup 时显式指定其他解析器：

s4 = bs4.BeautifulSoup(r.text, 'html.parser')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Web

webscraping

beautifulsoup

Beautiful Soup 4 find_all 找不到 Beautiful Soup 3 找到的链接的相关文章

如何替换 Pandas Dataframe 中不在列表中的所有值？ [复制]

这个问题在这里已经有答案了我有一个值列表如何替换 Dataframe 列中不在给定值列表中的所有值例如 gt gt gt df pd DataFrame D ND D garbage columns S gt gt gt df S 0
Python - 比较同一字典中的值

我有一本字典 d Trump MAGA FollowTheMoney Clinton dems Clinton Stein FollowTheMoney Atlanta 我想删除字符串列表中的重复字符串该字符串是键的值对于这个例子期望
在 Python 中将列表元素作为单独的项目返回

Stackoverflow 的朋友们大家好我有一个计算列表的函数我想单独返回列表的每个元素如下所示接收此返回的函数旨在处理未定义数量的参数 def foo my list 1 2 3 4 return 1 2 3 4 列表中的元素数
Django Rest Framework 是否有第三方应用程序来自动生成 swagger.yaml 文件？

我有大量的 API 端点编写在django rest framework并且不断增加和更新如何创建和维护最新的 API 文档我当前的版本是 Create swagger yaml文件并以某种方式在每次端点更改时自动生成然后使用此文件作
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
矩形函数的数值傅里叶变换

本文的目的是通过一个众所周知的分析傅里叶变换示例来正确理解 Python 或 Matlab 上的数值傅里叶变换为此我选择矩形函数这里报告了它的解析表达式及其傅立叶变换https en wikipedia org wiki Rectan
Python 3：将字符串转换为变量[重复]

这个问题在这里已经有答案了我正在从 txt 文件读取文本并且需要使用我读取的数据之一作为类实例的变量 class Sports def init self players 0 location name self players pla
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
Python - 如何确定解析的 XML 元素的层次结构级别？

我正在尝试使用 Python 解析 XML 文件中具有特定标记的元素并生成输出 excel 文档该文档将包含元素并保留其层次结构我的问题是我无法弄清楚每个元素解析器在其上迭代的嵌套深度 XML 示例摘录 3 个元素它们可以任意嵌套
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
重新分配唯一值 - pandas DataFrame

我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人总体目标是使用尽可能少的个人诀窍在于这
制作一份 Python 文档的 PDF 文件

Python 官方网站提供 PDF 文档下载但它们是按章节分隔的我下载了源代码并构建了 PDF 文档这些文档也是单独的 PDF 我怎么能够从源代码中的 Makefile 构建一个 PDF 文件我认为这样阅读起来会更方便如果连接单独
Firebase Firestore：获取文档的生成 ID (Python)

我可以创建一个新文档带有自动生成的 ID 并存储对其的引用如下所示 my data key value doc ref db collection u campaigns add my data 我可以像这样访问数据本身 print d
如何使用 Boto3 启动具有 IAM 角色的 EC2 实例？

我无法弄清楚如何使用指定的 IAM 角色在 Boto3 中启动 EC2 实例以下是迄今为止我如何成功创建实例的一些示例代码 import boto3 ec2 boto3 resource ec2 region name us west 2
在virtualenv中下载sqlite3

我正在尝试使用命令创建应用程序python3 manage py startapp webapp但我收到一条错误消息 django core exceptions ImproperlyConfigured 加载时出错 pysqlite2 或
如何使用 PrimaryKeyRelatedField 更新多对多关系上的类别

Django Rest 框架有一个主键相关字段 http www django rest framework org api guide relations primarykeyrelatedfield其中列出了我的 IDmany to m
NLTK：查找单词大小为 2k 的上下文

我有一个语料库我有一个词对于语料库中该单词的每次出现我想获取一个包含该单词之前的 k 个单词和该单词之后的 k 个单词的列表我在算法上做得很好见下文但我想知道 NLTK 是否提供了一些我错过的功能来满足我的需求 def size
如何在Python脚本中从youtube-dl中提取文件大小？

我是 python 编程新手我想在下载之前提取视频音频大小任何 YouTube 视频 gt gt gt from youtube dl import YoutubeDL gt gt gt url https www youtube c

随机推荐

从代码更改清单元数据

我有一个使用广告的应用程序广告 ID 通过元数据标签在清单 ID 中设置在某些情况下我想在启动应用程序时更改此标签某些本地化版本的 ID 不同我可以在代码中做到这一点吗清单元数据无法在运行时更改您应该查看您的广告库是否允许直接
Eclipse Android SDK - 构建工作区时出错

我已使用 Android SDK Manager 更新了我的软件包并单击帮助 gt 检查更新并更新了已安装的插件提示我重新启动eclipse 现在重新启动后我收到以下错误代码 Building workspace has encou
在 Swift SpriteKit 项目中播放声音？

当我运行这段代码时 runAction SKAction playSoundFileNamed Click mp3 waitForCompletion false 我的应用程序崩溃了由于未捕获的异常 NSInvalidArgumentEx
如何使 jQuery UI 'draggable()' div 可拖动用于触摸屏？

我有一个 jQuery 用户界面draggable 适用于 Firefox 和 Chrome 用户界面概念基本上是单击以创建便利贴类型的项目基本上我点击或点击div everything 100 高和宽监听点击并显示输入文本区域
如何在每个 jupyter Notebook 内核之前运行 Python 代码

假设我有一个代码片段我想在每次打开 jupyter 笔记本时运行在我的例子中它打开 Spark 连接假设我将该代码保存在 py 脚本中启动 py sc This is a spark connection 我希望每次打开内核时都能
Spark Scala - java.util.NoSuchElementException 和数据清理

我有过一次之前有类似问题但我正在寻找一个普遍的答案我在用火花核心LP获取电子邮件的情绪分数有时 sentiment 在某些输入上崩溃可能太长可能有意外的字符它没有告诉我它在某些情况下崩溃只是返回Column sentiment
产品处于应用程序计费托管和非托管状态

我对 android 很陌生我正在研究应用程序内计费我的问题是添加应用程序内产品时托管和非托管状态的主要目的是什么任何人都可以告诉我托管状态有什么用非托管状态有什么用托管和非托管之间的主要区别在于托管购买只能购买一次并且与购买
何时更新审核字段？ DDD

我有一个会议对象 Meeting id name time CreatedBy UpdatedBy and a MeetingAssignee id MeetingID EmployeeId CreatedBy UpdatedBy 会议作为
Python-Wand 序列未从内存中清除

如果我执行以下操作 for root dirs files in os walk myDir for myFile in files with Image filename myFile as img with Image image im
如何保存深色/浅色模式切换的 cookie？

我正在使用W3Schools 深色模式切换对于我的网站它运行得很好但在我刷新页面后就会显示默认视图日间模式 This is 网页测试页如何设置 cookie 以便如果用户选择深色模式则页面默认以深色模式打开另外如何将其应用于
Android：带参数的 Http post 不起作用

我需要创建一个带有参数的 HTTP POST 请求我知道有很多例子我尝试过使用 HTTPparams NameValuePair 等但似乎无法获得服务器的正确格式 Server Type REST based API utilizin
错误：Android 源在 Eclipse 中构建

在尝试将 android 源添加到 eclipse 时我收到以下错误 Project android is missing required library out target common obj JAVA LIBRARIES gsf
有效绘制树木的算法？

我需要用 C 绘制一个公司结构树有点像家谱所有的辅助代码都在那里它是彩色的互动的奇特的唯一的麻烦是实际决定每个节点放置位置的算法给我带来了很大的悲伤目前盒子的大小为 100x50 我有一个名为StaffNode它代表特定 x
我想更改所选的每个城市或子城市的图表

我用 AngularJS 开发了一个简单的应用程序我想基于这个网站添加一个简单的图表Js 图表这是我的数据 json name city A elements id c01 name name1 price 15 qte 10 id c
OOP 的重点是什么？

Locked 这个问题及其答案是locked因为这个问题是题外话但却具有历史意义目前不接受新的答案或互动据我所知尽管在 OOP 教育语言和工具上花费了数百万甚至数十亿美元但 OOP 并没有提高开发人员的生产力或软件可靠性也没有
ASP.NET core 中的密码重置令牌提供程序 - 未找到 IUserTokenProvider

Hello 为了进行密码重置工作我需要将 IUserTokenProvider 实例注册到 DI 中如果没有它我会在以下行中得到异常 var result await userManager ResetPasswordAsync us
如何从 Ruby 可枚举中获取列表？

我知道Python的list可以消耗生成器中所有元素的方法 Ruby 中有类似的东西吗我知道 elements enumerable each i elements lt lt i 我也知道inject选择有现成可用的方法吗 Enume
如何创建以用户名作为子域名的子域？

我提到了其他相关问题但我不清楚请解释一下如何在 PHP 中创建子域例子 http www domainname com page php usname sundar 我想更改此链接 http sundar domainname co
Google Play 开发者控制台与 Crashlytics 控制台中的崩溃

我们在 Google Play 商店中有一个 Android 应用程序应用程序的崩溃和 ANR 部分仅列出了少数几个最严重的崩溃而我们的 Crashlytics 控制台列出了一组完全不同的崩溃我的意思是 Crashlytics 中只有
Beautiful Soup 4 find_all 找不到 Beautiful Soup 3 找到的链接

我注意到一个非常烦人的错误 BeautifulSoup4 包 bs4 经常会发现比以前版本更少的标签包 BeautifulSoup 这是该问题的一个可重现的实例 import requests import bs4 import Beau

Beautiful Soup 4 find_all 找不到 Beautiful Soup 3 找到的链接

Beautiful Soup 4 find_all 找不到 Beautiful Soup 3 找到的链接 的相关文章

随机推荐

热门标签

Beautiful Soup 4 find_all 找不到 Beautiful Soup 3 找到的链接的相关文章