Scrapy从div中获取href

2024-03-24

我开始在一个小项目中使用Scrapy，但无法提取链接。每次找到该类时，我只得到“[]”，而不是 url。我错过了一些明显的东西吗？

sel = Selector(response)
for entry in sel.xpath("//div[@class='recipe-description']"):
    print entry.xpath('href').extract()

网站样本：

<div class="recipe-description">
    <a href="http://www.url.com/">
        <h2 class="rows-2"><span>SomeText</span></h2>
    </a>
</div>

你的 xpath 查询是错误的

for entry in sel.xpath("//div[@class='recipe-description']"):

在这一行中，您实际上是在迭代我们没有任何 Href 属性的 div

为了使其正确，您应该选择achor中的元素div:

for entry in sel.xpath("//div[@class='recipe-description']/a"):
    print entry.xpath('href').extract()

最好的解决方案是提取href属性在for直接循环

for href in sel.xpath("//div[@class='recipe-description']/a/@href").extract():
    print href

为简单起见，您还可以使用 css 选择器

for href in sel.css("div.recipe-description a::attr(href)").extract():
    print href

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

Scrapy

Scrapy从div中获取href 的相关文章

python导入模块时如何避免一直写模块名？

我用math最近模块很多我不想写math sqrt x and math sin x 每时每刻我想缩短它并写sqrt x and sin x How 对于较长的模块名称通常会缩短它们例如 import numpy as np 然后您
DataFrame 在函数内部修改

我面临一个我以前从未观察到的函数内数据帧修改的问题有没有一种方法可以处理这个问题以便初始数据帧不被修改 def test df df tt np nan return df dff pd DataFrame data 现在当我打印时d
编辑 scikit-learn 决策树

我想编辑 sklearn DecisionTree 例如改变条件或切割节点叶子等但似乎没有功能可以做到这一点如果我可以导出到文件编辑它以导入如何编辑决策树环境 Windows 10 python3 3 sklearn 0 17
KFold 和 ShuffleSplit CV 有什么区别？

看起来 KFold 每次迭代对象时都会生成相同的值而 Shuffle Split 每次都会生成不同的索引它是否正确如果是这样其中一个相对于另一个有什么用处 cv cross validation KFold 10 n folds 2
Python，将迭代函数变成递归函数

我创建了一个输出 4 3 2 1 0 1 2 3 4 的迭代函数 def bounce2 n s n for i in range n print n n n 1 if n lt 0 for i in range s 1 print n n
Python sqlite3游标没有属性commit

当我运行这段代码时 path Scripts wallpapers single png conn sqlite3 connect Users Heaven Library Application Support Dock desktopp
Scikit-learn 的内核 PCA：如何在 KPCA 中实现各向异性高斯内核或任何其他自定义内核？

我目前正在使用Scikit learn 的 KPCA https scikit learn org stable modules generated sklearn decomposition KernelPCA html对我的数据集执行降
为什么导入 pdb 时出现此错误？ “模块”对象没有属性“ascii_letters”

尝试调试我的代码我正在导入库pdb import sys from subprocess import check call import pdb functions if name main Code 我收到此错误 File reg p
字典中的列表，Python 中的循环

我有以下代码 TYPES hotmail type hotmail lookup mixed dkim no signatures S Return Path email protected cdn cgi l email protecti
为 Networkx 图添加标题？

我希望我的代码创建一个带有标题的图使用下面的代码可以创建绘图但没有标题有人可以告诉我我做错了什么吗 import pandas as pd import networkx as nx from networkx algorithms
如何使用 Python 多处理避免在分叉进程中加载父模块

当您创建一个Pool使用Python的进程multiprocessing 这些进程将分叉父进程中的全局变量将显示在子进程中如下面的问题所述如何限制多处理进程的范围 https stackoverflow com questions 2
杂乱的扭曲连接在不干净的时尚中消失了。没有代理。已经尝试过标题

我正在尝试抓取这个网站 https www5 apply2jobs com jupitermed ProfExt index cfm fuseaction mExternal searchJobs https www5 apply2jobs
如何对这个 Flask 应用程序进行单元测试？

我有一个 Flask 应用程序它使用 Flask Restless 来提供 API 我刚刚写了一些身份验证来检查如果消费者主机被识别该请求包含一个哈希值通过加密 POST 的请求内容和 GET 的 URL 以及秘密 API 密钥来计
在Python中删除带有重音符号的字符串中的所有非字母字符

我正在尝试使用 Python 3 7 从包含重音符号的字符串中删除所有非字母字符空格除外我尝试了以下方法 import re text 29 1981 4 2008 clean text re sub W d text print cl
pip 安装软件包两次

不幸的是我无法重现它但我们已经见过几次了 pip 将一个软件包安装两次如果卸载第一个第二个就会可见并且也可以被卸载我的问题如果一个包安装了两次如何用 python 检查背景我想编写一个测试来检查这一点 devOp Updat
Python正则表达式从字符串中获取浮点数

我正在使用正则表达式来解析字符串中的浮点数 re findall a zA Z d d t 是我使用的代码这段代码有问题如果数字和任何字符之间没有空格则不会解析该数字例如 0 1 2 3 4 5 6 7 8 9 的预期输出为 0 1
一起使用 Flask 和 Tornado？

我是以下的忠实粉丝Flask 部分是因为它很简单部分是因为它有很多扩展 http flask pocoo org extensions 然而 Flask 是为了在 WSGI 环境中使用而设计的而 WSGI 不是非阻塞的所以我相信它
从 IMDbPy 结果中的片目中获取电影 ID

我正在尝试创建一个数据集允许我根据 Python IMDb API 中的演员 ID 和电影 ID 加入演员和电影现在我正在尝试从演员的电影作品中提取电影 ID 列表但无法做到例如我知道 Rodney Dangerfield 在
如何向 SCons 构建添加预处理和后处理操作？

我正在尝试在使用 SCons 构建项目时添加预处理和后处理操作 SConstruct 和 SConscript 文件位于项目的顶部预处理动作生成代码通过调用不同的工具 gt 不知道在此预处理之后将生成的确切文件可以创建用于决定生成哪
Spyder 如何在同一线程的后台运行 asyncio 事件循环（或者确实如此？）

我已经研究 asyncio 模块功能几天了因为我想将它用于我的应用程序的 IO 绑定部分并且我认为我现在对它的工作原理有一个合理的理解或者在至少我认为我已经理解了以下内容任一时刻任一线程中只能运行一个异步事件循环一旦一切都设置

随机推荐

在 iPad 上处于全屏模式时，如何捕获 MPMoviePlayer 下一个按钮单击事件？

当的时候MPMoviePlayerViewController在 iPad 上处于全屏模式时它的控件默认在覆盖层上有一个上一个和下一个按钮在我的项目中我需要捕获该覆盖按钮的点击并进行相应的处理由于我不确定如何调用播放列表因此没有
计算结构大小而不填充字节的函数

您好我想创建一个函数来计算结构的大小而不填充字节例子 struct test int x char y int z 如果我计算上述结构的大小我必须得到 9 个字节即没有填充字节并考虑我可能不知道结构中存在的变量的情况例子 str
为什么 Octave、R、Numpy 和 LAPACK 在同一矩阵上产生不同的 SVD 结果？

我使用 Octave 和 R 通过一个简单的矩阵来计算 SVD 并得到两个不同的答案代码如下 R gt a lt matrix c 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0
简单 C++ - 关于字符串和串联以及将 int 转换为字符串 [重复]

这个问题在这里已经有答案了可能的重复在 C 中将 int 转换为 string 的最简单方法 https stackoverflow com questions 5590381 easiest way to convert int to
Laravel 5 和 Eloquent 数据库中两个日期之间的关系

我是 Laravel 5 的初学者我有一个表用户其中包含 CreateDate Type 和 Channel 列我有一个用户列表我在视图中选择 Trans StartDate Trans EndDate Type 和 Channe
熄灯 - 寻找最差的初始状态

我有一个围绕一个小游戏的任务叫做熄灯 https en wikipedia org wiki Lights Out game Game 该游戏由尺寸为 3x3 的棋盘组成其中每个单元格可以为 1 或 0 例如 0 1 0 1 1 0 0
HTTP 标头 If-None-Match: * 是什么意思？

以下 HTTP 1 1 标头是什么意思如果无匹配当使用强或弱 ETag 甚至 ETag 列表时我理解它但我不明白它在使用星号时的用途 Edit 最好有一些伪代码 PHP 代码也很好来显示如何什么回答 If None Match
用于 jquery 数据表服务器端处理的 Spinner

我有一个带有服务器端处理的 jquery 数据表版本 1 10 一切正常然而我的要求是为每个 ajax 调用显示一个微调器而不是默认的正在处理消息尝试了多种方法但没有任何作用这是我的代码 table pp DataTable
如何创建一个预先填写“说明”的 HTML 表单，当用户单击该框时，该说明会清晰可见？

我有一个 HTML 表单如下所示
更改 DecimalFormat 区域设置

我有定制DecimalFormat在 Edittext 的 addTextChangedListener 方法中一切工作正常但是当我更改语言区域设置时我的 addTextChangedListener 不起作用 double an
如何等待异步函数？

My case let waiting function return new Promise resolve gt console log awaiting setTimeout function resolve 1000 let wai
Clang 可以使用 GCC 编译的 .a 库来编译代码吗？

我的项目目前在 gcc 下编译它使用Boost ZeroMQ作为静态 a图书馆和一些 so像 SDL 这样的库我想一路叮当响但不是现在我想知道是否可以编译使用的代码 a and so在 gcc 下用 clang 编译的库是的就是
如何从 Node.js 打开终端应用程序？

我希望能够打开Vim从终端中运行的node js程序中创建一些内容保存并退出Vim 然后抓取文件的内容我正在尝试做这样的事情 filename tmp tmpfile process pid editor process env ED
动态将 RewriteBase 设置为当前文件夹路径

有没有办法将 RewriteBase 设置为相对于主机根目录的当前文件夹 htaccess 文件所在的文件夹的路径我有一个 CMS 如果我将其移动到主机中的目录它将无法工作除非我将 RewriteBase 设置为相对于主机根目录的目
具有不同行布局的游标适配器

我正在尝试创建一个自定义光标适配器它将根据光标中的某些数据使用两种不同的布局我一直在阅读重写 getViewTypeCount 和 getItemViewType 来实现这一点但我似乎不知道如何实现这一点这是我的 bindView
在 pandas 数据帧中插入多索引

我需要插入多索引数据帧例如这是主要数据框 a b c result 1 1 1 6 1 1 2 9 1 2 1 8 1 2 2 11 2 1 1 7 2 1 2 10 2 2 1 9 2 2 2 12 我需要找到以下结果 1 3 1 7
缺少 Ionic 网络本机插件的提供程序

我尝试过使用 Ionics 本机插件 Network 但由于据称缺少提供程序而失败为了避免任何错误我全新安装了 Ionic 和所需的依赖项 ionic cordova plugin add cordova plugin network
Glassfish 3.1.2 和 Eclipse

我刚刚下载了 Glassfish 版本 3 1 2 这还不是正式版本我需要这个版本因为我的 Web 应用程序正在使用 websockets 我现在遇到的问题是 Eclipse 的 Glassfish 插件他无法识别新的 Glassfi
什么可能导致作业无法完成？

我正在使用 C 开发一个项目由于某种原因当我尝试为枚举变量赋值时分配不会发生我会复制我的代码但这实际上只是一个简单的作业它是这样的 testVar MyEnum TYPE OF ENUM where testVar属于类型MyE
Scrapy从div中获取href

我开始在一个小项目中使用Scrapy 但无法提取链接每次找到该类时我只得到而不是 url 我错过了一些明显的东西吗 sel Selector response for entry in sel xpath div class reci

Scrapy从div中获取href

Scrapy从div中获取href 的相关文章

随机推荐

热门标签