Scrapy仅抓取网站的一部分

2024-05-22

您好，我有以下代码来扫描给定站点中的所有链接。

from scrapy.item import Field, Item
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors import LinkExtractor


class SampleItem(Item):
    link = Field()


class SampleSpider(CrawlSpider):
    name = "sample_spider"
    allowed_domains = ["domain.com"]
    start_urls = ["http://domain.com"]

    rules = (
        Rule(LinkExtractor(), callback='parse_page', follow=True),
    )

    def parse_page(self, response):
        item = SampleItem()
        item['link'] = response.url
        return item

如果我只想检查全球网站的一部分，我该怎么做？例如，我尝试仅扫描国际网站的法语部分，其域名结构为：domain.com/fr/fr。所以我尝试这样做：

from scrapy.item import Field, Item
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors import LinkExtractor


class SampleItem(Item):
    link = Field()


class SampleSpider(CrawlSpider):
    name = "sample_spider"
    allowed_domains = ["domain.com/fr/fr"]
    start_urls = ["http://domain.com/fr/fr"]

    rules = (
        Rule(LinkExtractor(), callback='parse_page', follow=True),
    )

    def parse_page(self, response):
        item = SampleItem()
        item['link'] = response.url
        return item

但蜘蛛只返回 3 个结果，而不是数千个。我究竟做错了什么？

要仅抓取网站的一部分，您必须使用 LinkExtractor。您可以通过发出来获取样品scrapy genspider -t crawl domain domain.com.

# -*- coding: utf-8 -*-
import scrapy
from scrapy.contrib.linkextractors import LinkExtractor
from scrapy.contrib.spiders import CrawlSpider, Rule

from test.items import testItem


class DomainSpider(CrawlSpider):
    name = 'domain'
    allowed_domains = ['domain.com']
    start_urls = ['http://www.domain.com/fr/fr']

    rules = (
        Rule(LinkExtractor(allow=r'fr/'), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        i = testItem()
        #i['domain_id'] = response.xpath('//input[@id="sid"]/@value').extract()
        #i['name'] = response.xpath('//div[@id="name"]').extract()
        #i['description'] = response.xpath('//div[@id="description"]').extract()
        return i

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

hyperlink

Scrapy

webcrawler

Scrapy仅抓取网站的一部分的相关文章

如何收集列表、字典等中重复计算的结果（或制作修改每个元素的列表的副本）？

There are a great many existing Q A on Stack Overflow on this general theme but they are all either poor quality typical
如何在Windows上模拟socket.socketpair

标准Python函数套接字套接字对 https docs python org 3 library socket html socket socketpair不幸的是它在 Windows 上不可用从 Python 3 4 1 开始我
如何使用包含代码的“asyncio.sleep()”进行单元测试？

我在编写 asyncio sleep 包含的单元测试时遇到问题我要等待实际的睡眠时间吗 I used freezegun到嘲笑时间当我尝试使用普通可调用对象运行测试时这个库非常有用但我找不到运行包含 asyncio sleep 的测
安装后 Anaconda 提示损坏

我刚刚安装张量流GPU创建单独的后环境按照以下指示here https github com antoniosehk keras tensorflow windows installation 但是安装后当我关闭提示窗口并打开新航站楼弹出
如何使用装饰器禁用某些功能的中间件？

我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
如何禁用 iPhone 邮件应用程序中的电话号码链接？

我的公司正在发送数字电子邮件收据但遇到了 iPhone Mail 检测数字数据并将其自动链接为电话号码的问题我已经看到元标记应该可以解决 iPhone 上的 Mobil Safari 中的问题但该技巧似乎不适用于 Mail 有谁知道如
Abaqus 将曲面转化为集合

我一直试图在模型中找到两个表面的中心参见照片但未能成功它们是元素表面面查询中没有选项可以查找元素表面的中心只能查找元素集的中心找到节点集的中心也很好但是我的节点集没有出现在工具 gt 查询 gt 质量属性选项中而且我找不到
表达式中的 Python 'in' 关键字与 for 循环中的比较 [重复]

这个问题在这里已经有答案了我明白什么是in运算符在此代码中执行的操作 some list 1 2 3 4 5 print 2 in some list 我也明白i将采用此代码中列表的每个值 for i in 1 2 3 4 5 print
Python：尝试检查有效的电话号码

我正在尝试编写一个接受以下格式的电话号码的程序XXX XXX XXXX并将条目中的任何字母翻译为其相应的数字现在我有了这个如果启动不正确它将允许您重新输入正确的数字然后它会翻译输入的原始数字我该如何解决 def main phon
如何改变Python中特定打印字母的颜色？

我正在尝试做一个简短的测验并且想将错误答案显示为红色欢迎来到我的测验您想开始吗是的祝你好运法国的首都是哪里法国随机答案不正确的答案我正在尝试将其显示为红色我的代码是 print Welcome to my Quiz be
通过数据框与函数进行交互

如果我有这样的日期框架氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
从 pygame 获取 numpy 数组

我想通过 python 访问我的网络摄像头不幸的是由于网络摄像头的原因 openCV 无法工作 Pygame camera 使用以下代码就像魅力一样 from pygame import camera display camera in
Nuitka 未使用 nuitka --recurse-all hello.py [错误] 编译 exe

我正在尝试通过 nuitka 创建一个简单的 exe 这样我就可以在我的笔记本电脑上运行它而无需安装 Python 我在 Windows 10 上并使用 Anaconda Python 3 我输入 nuitka recurse all h
在Python中重置生成器对象

我有一个由多个yield 返回的生成器对象准备调用该生成器是相当耗时的操作这就是为什么我想多次重复使用生成器 y FunctionWithYield for x in y print x here must be something t
VSCode：调试配置中的 Python 路径无效

对 Python 和 VSCode 以及 stackoverflow 非常陌生直到最近我已经使用了大约 3 个月一切都很好当尝试在调试器中运行任何基本的 Python 程序时弹出窗口The Python path in your
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

我有一个 Pandas 数据框它有两列一列进程参数列包含字符串另一列值列包含相应的浮点值我需要过滤出部分匹配列过程参数中的一组键的子数据帧并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce
协方差矩阵的对角元素不是 1 pandas/numpy

我有以下数据框 A B 0 1 5 1 2 6 2 3 7 3 4 8 我想计算协方差 a df iloc 0 values b df iloc 1 values 使用 numpy 作为 cov numpy cov a b I get ar
改变字典的哈希函数

按照此question https stackoverflow com questions 37100390 towards understanding dictionaries 我们知道两个不同的字典 dict 1 and dict 2例
Python 分析：“‘select.poll’对象的‘poll’方法”是什么？

我已经使用 python 分析了我的 python 代码cProfile模块并得到以下结果 ncalls tottime percall cumtime percall filename lineno function 13937860 9

随机推荐

这样理解Activity类似于iOS中的ViewController就可以了吗？

这样理解Activity类似于iOS中的ViewController就可以了吗我很困惑接受 Android 中的术语概念如活动服务等是的我想说 Activity 和 ViewController 非常相似只有一个很大的区别
Java EE 6 CDI 事件是事务性的吗？

Java EE 6 CDI 事件是事务性的吗如果我在事务中触发事件然后回滚该事务事件侦听器的效果是否也会回滚此行为是否依赖于事件侦听器本身支持事务如果我尝试从事件侦听器内回滚异常它会回滚触发该事件的事务吗来自事件章节 http
spring-data-neo4j 基本一对多关系不持久

EDIT 示例项目可在github https github com troig neo4jCustomRepository 我在后端项目中使用 Neo4J Rest 图形数据库托管在 grapheneDb 中和 Spring Data
Eclipse 调试“未找到源”

我刚刚开始使用 Eclipse 所以慢慢来吧但是当尝试调试 JUnit 测试用例时我会收到一个对话框指出当我在测试方法中的代码中找到此行时未找到源代码 Assert assertEquals 1 contents size 我知道
改变点的边缘方向

我正在尝试用点画一个非常简单的图表 digraph untitled rankdir LR rank same S A B gt A B gt S A gt A S gt S A gt S S gt A A gt T S gt T 我得到的
将相同的多个对象推送到多个数组中

这是后续使3个数组相互对应第一个是对象名称 https stackoverflow com questions 57564488 make 3 arrays correspond to each other with the first
如何在 WordPress 中设置发布日期的格式？

我有一个侧边栏我想在其中显示最新的帖子现在它显示标题日期和摘录日期显示了我想要删除的时间我用这个显示日期 recent post date
如何避免多系列折线图d3.js的工具提示重叠

我已经在多系列折线图上创建了工具提示如下所示在这里回答 https stackoverflow com questions 34886070 d3 js multiseries line chart with mouseover tool
在 R 中，如何获得某些向量值的所有可能组合？

背景我有一个需要一些参数的函数我想要获得所有可能的参数组合的函数结果一个简化的例子 f lt function x y return paste x y sep colors c red green blue days c Monda
h264 参考帧

我正在寻找一种在 h264 流中查找参考帧的算法我在不同的解决方案中看到的最常见的方法是查找访问单元分隔符和 IDR 类型的 NAL 不幸的是我检查的大多数流没有 IDR 类型的 NAL 我将不胜感激的帮助问候雅采克 H264 帧由
如何在 Kotlin 中强制执行空的非空字符串？

我经常想保存一个不能为空的字符串or blank 空白不够好编译器处理String 很好地防止 null 我们可以使用aNullableString isNullOrBlank 检查它是否为空或空白但是这要求在使用空白支票的所有地方都
在覆盖 UIView 的右下角创建四分之一透明孔

您好我想在覆盖 UIView 的右下角创建一个四分之一透明孔我可以使用下面的代码解决它但它看起来不正确因为我在视图之外创建了一个矩形我尝试过的 implementation PartialTransparentView id in
Visual Studio 复制资源 .cs 文件

Visual Studio 已经开始表现出一个相当令人恼火的怪癖当我编辑资源文件使用设计器视图或直接编辑 XML 时它会创建重复的资源 Designer cs 文件这会导致项目无法构建示例假设我的资源文件名为 ProjectSQ
无效的数组分配

我不知道我将地址分配给其他二维数组的问题出在哪里请帮我解决这个问题 int main int a 3 2 int b 2 0 1 a 2 b return 0 prog cpp 8 9 error invalid array assign
如何生成源代码来创建我正在调试的对象？

我的典型场景我处理的遗留代码有一个错误只有生产中的客户端才会遇到我附加了一个调试器并找出如何重现该问题their系统给定their输入但是我还不知道为什么会发生错误现在我想在本地系统上编写一个自动化测试来尝试重现然后修复错误最
如何在Python中按字母顺序对字符串中的字母进行排序

有没有一种简单的方法可以在Python中按字母顺序对字符串中的字母进行排序 So for a ZENOVW 我想返回 ENOVWZ 你可以做 gt gt gt a ZENOVW gt gt gt join sorted a ENOVWZ
如何从 PyEphem 获取物体的地球惯性或地心坐标？

我想获得各种物体的坐标XYZ坐标而不是它们出现在天空中的位置我对感兴趣 ECE 以地心为中心惯性 https en wikipedia org wiki Earth centered inertial 不随地球自转 ECEF 以地心
如何找到 AS3 中 xml 子级的数量

所以现场文档说这是在 XML 对象上调用 length 对于 XML 对象此方法始终返回整数 1 length XMLList 类的方法返回一个对于 XMLList 对象值为 1 仅包含一个值我在 xml 上调用它如下所示
什么是 .un~ 文件或者为什么终端中的 Vim 会创建 .un~ 文件？

我注意到我有一些以 un 例如我有一个 vividchalk vim un 但我不确定它是从哪里来的看起来它们是我在终端中使用 Vim 时创建的这些文件是什么当我关闭正在编辑的文件时可以让它们自行删除吗当你编辑和保存文件时 Vim
Scrapy仅抓取网站的一部分

您好我有以下代码来扫描给定站点中的所有链接 from scrapy item import Field Item from scrapy contrib spiders import CrawlSpider Rule from scrap

Scrapy仅抓取网站的一部分

Scrapy仅抓取网站的一部分 的相关文章

随机推荐

热门标签

Scrapy仅抓取网站的一部分的相关文章