Scrapy 仅抓取每个页面的第一个结果

2024-05-13

我目前正在尝试运行以下代码，但它只保留每个页面的第一个结果。知道可能是什么问题吗？

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from firstproject.items import xyz123Item
import urlparse
from scrapy.http.request import Request

class MySpider(CrawlSpider):
    name = "xyz123"
    allowed_domains = ["www.xyz123.com.au"]
    start_urls = ["http://www.xyz123.com.au/",]

    rules = (Rule (SgmlLinkExtractor(allow=("",),restrict_xpaths=('//*[@id="1234headerPagination_hlNextLink"]',))
    , callback="parse_xyz", follow=True),
    )

    def parse_xyz(self, response):
        hxs = HtmlXPathSelector(response)
        xyz = hxs.select('//div[@id="1234SearchResults"]//div/h2')
        items = []
        for xyz in xyz:
            item = xyz123Item()
            item ["title"] = xyz.select('a/text()').extract()[0]
            item ["link"] = xyz.select('a/@href').extract()[0]
            items.append(item)
            return items

Basespider 版本可以很好地抓取首页上的所有所需数据：

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from firstproject.items import xyz123

class MySpider(BaseSpider):
    name = "xyz123test"
    allowed_domains = ["xyz123.com.au"]
    start_urls = ["http://www.xyz123.com.au/"]


    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        titles = hxs.select('//div[@id="1234SearchResults"]//div/h2')
        items = []
        for titles in titles:
            item = xyz123Item()
            item ["title"] = titles.select("a/text()").extract()
            item ["link"] = titles.select("a/@href").extract()
            items.append(item)
        return items

很抱歉审查。出于隐私原因，我不得不审查该网站。

第一个代码按照我希望的方式很好地爬行页面，但是它只提取第一个项目标题和链接。注意：在 google 中使用“inspect element”的第一个标题的 XPath 是：
//*[@id="xyz123SearchResults"]/div[1]/h2/a,
第二个是//*[@id="xyz123SearchResults"]/div[2]/h2/a
第三是//*[@id="xyz123SearchResults"]/div[3]/h2/a etc.

我不确定 div[n] 位是否是杀死它的原因。我希望这是一个简单的修复。

Thanks

 for xyz in xyz:
            item = xyz123Item()
            item ["title"] = xyz.select('a/text()').extract()[0]
            item ["link"] = xyz.select('a/@href').extract()[0]
            items.append(item)
            return items

您确定退货的缩进吗？应该少一个。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

screenscraping

Scrapy

Scrapy 仅抓取每个页面的第一个结果的相关文章

Flask-SocketIO redis 订阅

我在用着https github com miguelgrinberg Flask SocketIO https github com miguelgrinberg Flask SocketIO实现 WebSocket 服务器我需要从另一
在函数内的 for 循环上使用 tqdm 来检查进度

我正在使用 for 循环迭代目录树内的一大组文件这样做时我想通过控制台中的进度条来监视进度因此我决定使用 tqdm 来实现此目的目前我的代码如下所示 for dirPath subdirList fileList in tqdm
GUI 测试工具 PyUseCase 与 Dogtail 相比如何？

GUI测试工具如何Py用例 http pypi python org pypi PyUseCase重命名为故事文本 http pypi python org pypi StoryText 相比于Dogtail http en wikiped
使用 Boto3 超时的 AWS Lambda 函数

我已经解决了我自己的问题但无论如何我都会发布它希望能节省其他人几个小时我在 AWS 上有一个无服务器项目使用 Python 将记录插入到 kinesis 队列中但是当我使用 boto3 client kinesis 或 put
使用 Python 和 lmfit 拟合复杂模型？

我想适合椭偏仪 http en wikipedia org wiki Ellipsometry使用 LMFit 将数据转换为复杂模型两个测量参数 psi and delta 是复杂函数中的变量rho 我可以尝试将问题分离为实部和虚部共享参
Python Requests 库重定向新 url

我一直在浏览 Python 请求文档但看不到我想要实现的任何功能在我的脚本中我设置allow redirects True 我想知道该页面是否已重定向到其他内容新的 URL 是什么例如如果起始 URL 为 www google c
使用 Tkinter 打开网页

因此我的应用程序需要能够打开其中的单个网页并且它必须来自互联网并且未保存特别是我想使用 Tkinter GUI 工具包因为它是我最熟悉的工具包最重要的是我希望能够在窗口中生成事件例如单击鼠标但无需实际使用鼠标有什么好的方法
Python speedtest.net，或等效的[关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案是否有一个 Python 库可以实现 SpeedTest net 测试或等效的互联网连接速度测试 GitHub上有一个项目叫速度检查 https gi
我可以用关闭的文件对象做什么？

当您打开文件时它存储在一个打开的文件对象中该对象使您可以访问该文件的各种方法例如读取或写入 gt gt gt f open file0 gt gt gt f
如何从 python 脚本执行 7zip 命令

我试图了解如何使用 os system 模块来执行 7zip 命令现在我不想用 Popen 或 subprocess 让事情变得复杂我已经安装了 7zip 并将 7zip exe 复制到我的用户文件夹中我只想提取我的测试文件 inst
multiprocessing.Queue 中的 ctx 参数

我正在尝试使用 multiprocessing Queue 模块中的队列实施 https docs python org 3 4 library multiprocessing html exchang objects Between p
在 django 中导入设置时出现奇怪的错误

我有很多项目在 ubuntu 中使用 python2 7 和 virtualenv virtualenvwrapper 工作在我的工作中一些开发人员使用 macosx 和 windows 通常我像往常一样创建项目 django admi
使用 ElementTree 在 python 中解析 xml

我对 python 很陌生我需要解析一些脏的 xml 文件这些文件需要先清理我有以下 python 代码 import arff import xml etree ElementTree import re totstring wit
Flymake的临时文件可以在系统临时目录下创建吗？

我目前正在使用以下代码在 emacs 中连接 Flymake 和 Pyflakes defun flymake create temp in system tempdir filename prefix make temp file or
无法在 phantomjs 中延迟加载

我正在尝试从链接中抓取一些信息 http www myntra com women sarees nav id 606 http www myntra com women sarees nav id 606 涉及延迟加载下面是我的代码片段
将 Django 中的所有视图限制为经过身份验证的用户

我是 Django 新手我正在开发一个项目该项目有一个登录页面作为其索引和一个注册页面其余页面都必须仅限于登录用户如果未经身份验证的用户尝试访问这些页面则必须将他她重定向到登录页面我看到 login required装饰器会将
如何检测一个二维数组是否在另一个二维数组内？

因此在堆栈溢出成员的帮助下我得到了以下代码 data needle s which is a png image base64 code goes here decoded data decode base64 f cStringIO
用 pandas DataFrame 替换 mysql 数据库表中的行

Python 版本 2 7 6 熊猫版本 0 17 1 MySQLdb 版本 1 2 5 在我的数据库中 PRODUCT 我有一张桌子 XML FEED 表 XML FEED 很大数百万条记录我有一个 pandas DataFrame
SQLAlchemy 与 count、group_by 和 order_by 使用 ORM

我有几个函数需要使用 count group by 和 order by 进行一对多连接我使用 sqlalchemy select 函数生成一个查询该查询将返回一组 id 然后我对其进行迭代以对各个记录执行 ORM 选择我想知道是否有
PyQt5按钮lambda变量变成布尔值[重复]

这个问题在这里已经有答案了当我运行下面的代码时它显示如下为什么 x 不是 x 而是变成布尔值这种情况仅发生在传递到用 lambda 调用的函数中的第一个参数上错误的 y home me model some file from P

随机推荐

角度引导手风琴数据绑定问题

我有 2 个相同型号的下拉菜单一个位于手风琴内部另一个位于外部外部下拉菜单在 2 路数据绑定方面工作良好但手风琴内部的下拉菜单似乎只有 1 路绑定换句话说在 UI 中选择并不会设置模型值我找到了一个建议here https s
如何将多个文件上传到Firebase？

有没有办法将多个文件上传到 Firebase 存储它可以在一次尝试内上传单个文件如下所示 fileButton addEventListener change function e Get file var file e target
分层对象和 AutoFixture

我已经实现了一个用于存储标签的类标签集合必须是分层的所以我的类是 public class Tag public int Id get set public int Description get set public Tag Pare
使用 PRAW 帮助获取 Reddit 帖子链接到的 URL

我正在尝试使用 Praw 获取 Reddit 提交标题中链接的帖子例如提交 http www reddit com r AdviceAnimals comments 1adu71 apparently people still need
分发 IronPython 应用程序

我正在考虑使用 IronPython 开发一个小型应用程序但是我想将我的应用程序分发给非技术人员因此理想情况下我希望能够为他们提供我的应用程序的标准快捷方式以及安装 IronPython 所需的说明第一的如果可能的话我什至希望我的
如何从 MacOS X Dock 启动脚本？

我知道我可以将应用程序固定到扩展坞并从那里启动它们但是有没有办法将不是 MacOS 意义上的应用程序的程序例如 bash 脚本固定到扩展坞上您可以将任何文件拖到 Dock 的右侧栏垃圾箱和文件夹所在的位置然后单击它来执行它
使用 POJO 仅更新 JOOQ 记录中已更改的字段

我想使用 POJO 作为源来更新 JOOQ 记录中已更改的字段 Record from Object http www jooq org javadoc 3 8 x org jooq Record html from java lang O
Android：等待 firebase valueEventListener

我正在尝试使用信号量来等待我的 firebase valueEventListener 我有一个用户信息活动其中包含用户必须填写的 6 个不同字段当用户保存他她的信息时我想进行全有或全无类型的检查某些用户信息不能重复例如用户
如何使用 tweepy 仅提取主题标签中的文本？

我想为我的情感分析项目提取主题标签但是我得到了一个字典列表其中包含所有主题标签及其在推文中的索引我只想要文字我的代码 data tweepy Cursor api search q since a i until b i items
如何在android 4.2中显示选项菜单

我正在尝试在我的测试应用程序中创建菜单选项当我将清单中的主题设置为默认时我可以看到菜单菜单显示在顶部如果我将清单中的主题设置为 NoTitleBar 我看不到菜单选项我想在清单中设置主题 NoTitleBar 时获取菜单如何修复
Django 模型 - 外键作为主键

我有以下2张表在 models py 中 class Foo models Model uuid models CharField UUID primary key True default uuid4 and class FooExt
发生未处理的异常：工作区中未设置配置“生产”

您好在 Angular 8 中创建了一个项目最初它仅支持一种默认语言 US EN 然后我应用了本地化在准备生产构建的本地化之前我曾经给出以下命令 ng build prod base href Windchill com qiwkC
IE.navigate2 因保护模式关闭而失败

我正在从 Excel VBA 自动化 IE8 Excel 2010 Windows 7 Set IE CreateObject InternetExplorer Application IE Navigate2 URL 如果 URL 是处于
我的 unix 脚本出了什么问题

bin bash while echo n Player s name read name name ZZZ do searchresult grep name playername if searchresult 0 then echo
Elastic Beanstalk 添加多个 ssl 证书

我有一个 Docker Django api 应用程序可以从多个域 abc xyx com 或 def lmn com 调用我已从 Elastic beanstalk 中的配置控制台成功添加了 abc xyz com 的 ssl 证书
Clojure：让作用域和函数返回值

我在弄清楚如何使用 let 形式时遇到了一些麻烦在下面的示例中我想在本地绑定值 cols 以便稍后在函数中处理它然而我注意到如果我使用 let 函数 sel opt tmp 将返回 nil 值而不是列表 defn sel opt
C++ 中何时需要或需要“显式专业化”？

我正在阅读 C 入门 gt 函数冒险 gt 模板 gt 显式专业化为了说明显式专业化的原因用途举例说明了一个案例考虑一个可以交换任何类型的交换模板函数 int double struct etc 但有一个具体的struct job您
买入和卖出信号在图表上相差甚远

我尝试根据以下策略生成的信号绘制图表但我从脚本中观察到的是蜡烛的信号产生点不同如果有人知道这一点请帮助我作为参考我附上了下面的快照 1 买入信号快照 https i stack imgur com RLtoP png 2 卖出信号
在 Chrome 中，我可以直接进入设备模式而不使用 DevTools 吗？

铬的设备模式 https developers google com web tools chrome devtools device mode emulate mobile viewports hl en非常适合测试响应式布局但是似乎
Scrapy 仅抓取每个页面的第一个结果

我目前正在尝试运行以下代码但它只保留每个页面的第一个结果知道可能是什么问题吗 from scrapy contrib spiders import CrawlSpider Rule from scrapy contrib linkext

Scrapy 仅抓取每个页面的第一个结果

Scrapy 仅抓取每个页面的第一个结果 的相关文章

随机推荐

热门标签

Scrapy 仅抓取每个页面的第一个结果的相关文章