Python：Scrapy返回元素后面的所有html，而不仅仅是元素的html

2024-05-13

我遇到了 Scrapy 行为异常的问题。

几个月前我编写了一个简单的函数，它返回给定 xpath 处的项目列表。

def get_html(response,path):
    sel = Selector(text = response.page_source)
    time.sleep(.2)
    items = sel.xpath(path).getall()
    return items

使用示例：

<body>
    <div id="1">Some Text</div>
    <div id="2">Different Text</div>
    <a href="#">Some link</a>
</body>

如果我想获取所有 div 元素，我会这样写：

get_html(response,'//div')

我期望并且之前已收到此输出

['<div id="1">Some Text</div>',
 '<div id="2">Different Text</div>']

但是，现在当我调用这个方法时，我收到这个输出

['<div id="1">Some Text</div><div id="2">Different Text</div><a href="#">Some link</a></body>',
 '<div id="2">Different Text</div><a href="#">Some link</a></body>']

问题不是由于我正在抓取的网页发生了更改，我在最初抓取时保存了源代码，它与我今天在网页上看到的源代码相同。我尝试抓取的多个网站都存在此问题。我不确定问题是什么，或者如何解决它。我要么需要解决问题，要么用另一个行为相同的函数替换该函数。

我知道有一些方法可以分割字符串并删除不需要的数据，但是我已经在 100 多个模块中使用了这个函数，并且不想冒险通过硬编码这样的解决方案来破坏这些功能。我需要理解为什么函数的输出发生了变化，尽管源代码没有任何变化。

Edit:

根据下面的评论，这正是我在控制台中输入的内容以产生此结果。如果其他人无法重现这种情况，请让我知道如何开始诊断为什么会发生这种情况。我使用的是 Spyder 版本 4.2.5、Python 3.8.5、Scrapy 2.4.1。

In[1]: from scrapy.selector import Selector

In[2]: text = """<body>
        <div id="1">Some Text</div>
        <div id="2">Different Text</div>
        <a href="#">Some link</a>
    </body>"""

In[3]: sel = Selector(text=text)

In[4]: items = sel.xpath('//div').getall()

In[5]: items
Out[5]: 
['<div id="1">Some Text</div>\n        <div id="2">Different Text</div>\n        <a href="#">Some link</a>\n    </body></html>\n',
 '<div id="2">Different Text</div>\n        <a href="#">Some link</a>\n    </body></html>\n']

全新安装 Anaconda 后问题似乎已得到解决。不知道是什么原因导致它首先出现，希望它不会再次发生。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python：Scrapy返回元素后面的所有html，而不仅仅是元素的html 的相关文章

使用 Pandas 从 csv 文件读取标题信息

我有一个包含 14 行标题的数据文件在标头中有经纬度坐标和时间的元数据我目前正在使用 pandas read csv filename delimiter header 14 读取文件但这只是获取数据我似乎无法获取元数据有人知道
如何用函数记录一个文件？

我有一个带有函数 lib py 但没有类的python 文件每个函数都有以下样式 def fnc1 a b c This fonction does something param a lalala type a str param b
如何为 HTML5 音频元素制作加载栏？

我正在尝试为 HTML5 音频元素制作一个加载栏显示加载缓冲的百分比对于视频标签可以使用以下方法进行计算 video buffered end 0 video duration 但我无法让它与音频标签一起使用它只是返回一个固定值
为什么需要设置WORKON_HOME环境变量？

我已经有一段时间没有使用 python 虚拟环境了但我也安装了虚拟环境包装器我的问题是在文档页面中它说要这样做 export WORKON HOME Envs mkdir p WORKON HOME source usr local
如何知道python运行脚本的路径？

sys arg 0 给我 python 脚本例如 python hello py 返回 sys arg 0 的 hello py 但我需要知道 hello py 位于完整路径中的位置我怎样才能用Python做到这一点 os path a
列表推导式和 for 循环中的 Lambda 表达式[重复]

这个问题在这里已经有答案了我想要一个 lambda 列表作为一些繁重计算的缓存并注意到这一点 gt gt gt j for j in lambda i for i in range 10 9 9 9 9 9 9 9 9 9 9 Alt
Python 在哪些系统上不使用 IEEE-754 双精度浮点数

Python 对 IEEE 754 浮点运算进行了各种引用但不保证1 https docs python org 3 tutorial floatingpoint html 2 https pythondev readthedocs io
在 django 中导入设置时出现奇怪的错误

我有很多项目在 ubuntu 中使用 python2 7 和 virtualenv virtualenvwrapper 工作在我的工作中一些开发人员使用 macosx 和 windows 通常我像往常一样创建项目 django admi
光滑的旋转木马不工作

我一直在尝试简单地实现 Slick Carousel 的工作我已按照 Git 页面上的说明进行操作 https github com kenwheeler slick https github com kenwheeler slick 这
Python在没有pandas的情况下解码excel表

我正在尝试在 python 中读取 excel 文件而不使用pandas or xlrd 我一直在尝试将结果转换为bytes to utf 8没有任何成功 xls 文件中的数据 colA colB colC spc 1D0 20190705
单击输入字段会触发窗口调整大小

我有一个带有徽标菜单和搜索的标题当我在桌面上时我会按该顺序显示所有元素但如果我的窗口宽度小于 980 像素菜单会隐藏有一个切换按钮并且徽标会与nav并附在徽标之后如果宽度更大则徽标将再次分离并附加到 DOM 中的旧位置 w
canvas.getContext('2D') 返回空值

我创建了一个画布并将其命名为getContext 方法但它返回null为上下文这是我使用的代码我在控制台中得到了这个
Python：导入模块一次然后与多个文件共享

我有如下文件 file1 py file2 py file3 py 假设这三个都使用 lib7 py lib8 py lib9 py 目前这三个文件中的每一个都有以下行 import lib7 import lib8 import lib
更改时触发跨度文本/html

jQuery 或 JavaScript 中是否有任何事件在以下情况下触发span标签 text html 已更改 Code span class user location span user location change functio
从给定的项目列表创建子列表

我首先要说的是以下问题不是为了家庭作业目的即使因为我几个月前就完成了软件工程师的工作无论如何今天我正在工作一位朋友向我询问了这个奇怪的排序问题我有一个包含 1000 行的列表每行代表一个数字我想创建 10 个子列表每个子列表都
SQLAlchemy 与 count、group_by 和 order_by 使用 ORM

我有几个函数需要使用 count group by 和 order by 进行一对多连接我使用 sqlalchemy select 函数生成一个查询该查询将返回一组 id 然后我对其进行迭代以对各个记录执行 ORM 选择我想知道是否有
PyQt5按钮lambda变量变成布尔值[重复]

这个问题在这里已经有答案了当我运行下面的代码时它显示如下为什么 x 不是 x 而是变成布尔值这种情况仅发生在传递到用 lambda 调用的函数中的第一个参数上错误的 y home me model some file from P
ProcessPoolExecutor 传递多个参数

ESPN播放器免费 class ESPNPlayerFree def init self player id match id match id team 团队名单1 277906 cA2i150s81HI3qbq1fzi za1Oq5CG
如何更改 Shiny 中 navbarPage 折叠的断点

我想用shiny navbarPage collapsible TRUE 当在小屏幕上查看我的 Shiny 应用程序时将导航元素折叠到菜单中默认情况下当浏览器宽度小于 940 像素时会触发折叠有什么方法可以改变这一点以便在稍大的浏
超过两个点的Python相对导入

是否可以使用路径中包含两个以上点的模块引用就像这个例子一样 Project structure sound init py codecs init py echo init py nix init py way1 py way2 py w

随机推荐

使用 TStringList 的分隔符解析字符串，似乎也解析空格（Delphi）

我有一个简单的字符串由某个字符分隔比如说逗号我应该能够创建一个 TStringList 并将其分隔符设置为逗号然后将 DelimitedText 设置为我想要解析的文本并且应该自动解析它问题是当我查看输出时它还包含空格作为分
在 C# 中加密并在 Flex 中解密

我需要解密 Flex 中的一些数据这些数据是用 C 加密并写入文件的为了简单起见我选择使用 as3crypto As3 库和 Bruce Schneier C 库 AS3 as3加密链接 http code google com p
是否可以存根实体框架上下文和类来测试数据访问层？

我熟悉用于测试 ASP NET MVC 应用程序中的控制器和业务逻辑的技术我们的应用程序中的数据访问集中在松散耦合的特殊服务中使用接口并通过实体框架与实际数据库一起使用然而随着 DAL 变得越来越复杂隐藏数据库实现细节并为应用程序
为什么 MISRA:2012 需要函数原型？

我想知道为什么 MISRA 2012 需要函数原型在下面的示例中这两个原型并不是真正必要的 include
可空日期列合并问题

我在 Geronimo 应用程序服务器上使用 JPA 和下面的 openjpa 实现我也在使用MySQL数据库我在更新具有可为空 Date 属性的对象时遇到问题当我尝试合并 Date 属性设置为 null 的实体时不会生成 sql
Struts html:text 标签内的 HTML5 占位符

我在 Web 应用程序中使用 Struts 1 3 10 并且希望我的文本字段有一个占位符不幸的是当前的 Struts taglib 无法识别此属性如果可能的话我希望避免使用 javascript 你知道有什么解决办法吗 Strut
在 MongoDb 上序列化仅获取属性

使用 C 6 我可以写 public class Person public Guid Id get public string Name get public Person Guid id string name Id id Name n
如何在 Xamarin.Mac 中执行终端命令并读入其输出

我们正在编写一个 Xamarin Mac 应用程序我们需要执行像 uptime 这样的命令并将其输出读取到应用程序中进行解析这可以做到吗在 Swift 和 Objective C 中都有 NTask 但我似乎无法在 C 中找到任何示
嵌入文档中的mongodb限制

我需要创建一个消息系统一个人可以在其中与许多用户进行对话例如我开始与 user2 user3 和 user4 交谈因此他们中的任何人都可以看到整个对话并且如果对话在任何时候都不是私密的则任何参与者都可以将任何其他人添加到对话中
用于检查字符串是否至少包含 3 个字母数字字符的最有效的正则表达式

我有这个正则表达式 a zA Z0 9 3 我用它来查看字符串中是否至少包含 3 个字母数字字符似乎有效它应该匹配的字符串示例 a3c 0 c 8 9 9d 但是我需要它更快地工作有没有更好的方法使用正则表达式来匹配相同的模式编辑
Java环境变量设置方法

我已将以下行插入 bash profile export GOOGLE APPLICATION CREDENTIALS Users jun Downloads export PATH PATH GOOGLE APPLICATION CRED
cakephp 3.0 如何使用值而不是 id 填充选择字段

我一直在寻找以前的答案但我找到的答案与旧的 cakephp 版本有关我有两个表杂志和问题其中存在关系问题属于杂志问题表如下所示 public function initialize array config this g
如何从主机连接到 Docker Postgres 容器

我按照以下说明搭建了一个 Rails 开发环境https docs docker com compose rails https docs docker com compose rails 它可以工作但我无法从主机连接到 Postgres
使用 node.js 获取正在运行的进程的 stdin/stdout

我正在从节点启动一个进程child process spawn http nodejs org docs v0 6 1 api child processes html child process spawn处理 process stdou
如何带参数调用外部程序？

我想在我的代码中调用一个 Windows 程序并使用代码本身确定的参数我不想调用外部函数或方法而是调用 WinXP 环境中的实际 exe 或批处理脚本文件 C 或 C 将是首选语言但如果使用任何其他语言更容易完成此操作请告诉我
无论表单上的焦点控件如何，如何捕获 Keys.F1？

我使用了 KeyDown 事件和一些简单的代码例如if e KeyCode Keys F1 捕获在表单上按下 F1 但如果表单上有一些文本框或者表单上有一些带有 Dock Fill 的电子表格则上面的代码将毫无用处并且不执行任何操作
为什么对于大于 65776 像素的画布源，drawImage 性能差异很大

我在 jsperf 上写了一些与以下相关的测试用例 1 在屏幕外画布上绘图 2 将图像绘制到屏幕画布上我发现如果源画布中的像素数无论 dst 小于 65776 像素性能会高得多我预计这个性能限制是 65536 像素如果有的话 He
学习 Verilog 的资源 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我是 Verilog 新手有人可以推荐学习资源书籍视频博客或任何他们有良好个人经验并帮助他们更
将初始值传递给 django 中的模型表单

如何将字段的初始值传递给模型表单我有类似下面的代码 class ScreeningForm forms ModelForm class Meta model Screening def init self args kwargs supe
Python：Scrapy返回元素后面的所有html，而不仅仅是元素的html

我遇到了 Scrapy 行为异常的问题几个月前我编写了一个简单的函数它返回给定 xpath 处的项目列表 def get html response path sel Selector text response page source

Python：Scrapy返回元素后面的所有html，而不仅仅是元素的html

Python：Scrapy返回元素后面的所有html，而不仅仅是元素的html 的相关文章

随机推荐

热门标签