Scrapy CrawlSpider 基于 start_urls 的动态规则？

2023-12-11

我正在编写一个 Scrapy 抓取工具，它使用 CrawlSpider 来抓取网站，检查其内部链接，并抓取任何外部链接（域与原始域不同的链接）的内容。

我设法用两条规则来做到这一点，但它们是基于正在爬网的网站的域。如果我想在多个网站上运行它，我会遇到问题，因为我不知道我当前所在的“start_url”，所以我无法适当地更改规则。

这是我到目前为止想到的，它适用于一个网站，但我不确定如何将其应用于一系列网站：

class HomepagesSpider(CrawlSpider):
    name = 'homepages'

    homepage = 'http://www.somesite.com'

    start_urls = [homepage]

    # strip http and www
    domain = homepage.replace('http://', '').replace('https://', '').replace('www.', '')
    domain = domain[:-1] if domain[-1] == '/' else domain

    rules = (
        Rule(LinkExtractor(allow_domains=(domain), deny_domains=()), callback='parse_internal', follow=True),
        Rule(LinkExtractor(allow_domains=(), deny_domains=(domain)), callback='parse_external', follow=False),
    )

    def parse_internal(self, response):

        # log internal page...

    def parse_external(self, response):

        # parse external page...

这可能可以通过在调用抓取器时将 start_url 作为参数传递来完成，但我正在寻找一种在抓取器本身内以编程方式执行此操作的方法。

有任何想法吗？谢谢！

Simon.

我找到了一个非常相似的问题并使用接受的答案中提供的第二个选项来开发此问题的解决方法，因为它在 scrapy 中不支持开箱即用。

我创建了一个函数，它获取 url 作为输入并为其创建规则：

def rules_for_url(self, url):

    domain = Tools.get_domain(url)

    rules = (
        Rule(LinkExtractor(allow_domains=(domain), deny_domains=()), callback='parse_internal', follow=True),
        Rule(LinkExtractor(allow_domains=(), deny_domains=(domain)), callback='parse_external', follow=False),
    )

    return rules

然后我重写了 CrawlSpider 的一些函数。

我将 _rules 更改为字典，其中键是不同的网站域，值是该域的规则（使用rules_for_url）。 _rules 的填充完成于_compile_rules
然后我做出适当的改变_requests_to_follow and _response_downloaded支持新的使用方式_rules.

_rules = {}

def _requests_to_follow(self, response):
    if not isinstance(response, HtmlResponse):
        return
    seen = set()

    domain = Tools.get_domain(response.url)
    for n, rule in enumerate(self._rules[domain]):
        links = [lnk for lnk in rule.link_extractor.extract_links(response) 
                 if lnk not in seen]
        if links and rule.process_links:
            links = rule.process_links(links)
        for link in links:
            seen.add(link)
            r = self._build_request(domain + ';' + str(n), link)
            yield rule.process_request(r)

def _response_downloaded(self, response):

    meta_rule = response.meta['rule'].split(';')
    domain = meta_rule[0]
    rule_n = int(meta_rule[1])

    rule = self._rules[domain][rule_n]
    return self._parse_response(response, rule.callback, rule.cb_kwargs, rule.follow)

def _compile_rules(self):
    def get_method(method):
        if callable(method):
            return method
        elif isinstance(method, six.string_types):
            return getattr(self, method, None)

    for url in self.start_urls:
        url_rules = self.rules_for_url(url)
        domain = Tools.get_domain(url)
        self._rules[domain] = [copy.copy(r) for r in url_rules]
        for rule in self._rules[domain]:
            rule.callback = get_method(rule.callback)
            rule.process_links = get_method(rule.process_links)
            rule.process_request = get_method(rule.process_request)

查看原来的功能here.

现在，蜘蛛将简单地遍历 start_urls 中的每个 url，并创建一组特定于该 url 的规则。然后对每个正在抓取的网站使用适当的规则。

希望这对将来遇到这个问题的人有所帮助。

Simon.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

webcrawler

Scrapy

Scrapy CrawlSpider 基于 start_urls 的动态规则？的相关文章

如何在python中读取多个文件中的文本

我的文件夹中有许多文本文件大约有 3000 个文件每个文件中第 193 行是唯一包含重要信息的行我如何使用 python 将所有这些文件读入 1 个文本文件 os 模块中有一个名为 list dir 的函数该函数返回给定目录中所有文
Pycharm Python 控制台不打印输出

我有一个从 Pycharm python 控制台调用的函数但没有显示输出 In 2 def problem1 6 for i in range 1 101 2 print i end In 3 problem1 6 In 4 另一方面像
如何收集列表、字典等中重复计算的结果（或制作修改每个元素的列表的副本）？

There are a great many existing Q A on Stack Overflow on this general theme but they are all either poor quality typical
pandas 替换多个值

以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
为 pandas 数据透视表中的每个值列定义 aggfunc

试图生成具有多个值列的数据透视表我知道我可以使用 aggfunc 按照我想要的方式聚合值但是如果我不想对两列求和或求平均值而是想要一列的总和同时求另一列的平均值该怎么办那么使用 pandas 可以做到这一点吗 df pd D
如何使用装饰器禁用某些功能的中间件？

我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
IRichBolt 在storm-1.0.0 和 pyleus-0.3.0 上运行拓扑时出错

我正在运行风暴拓扑 pyleus verbose local xyz topology jar using storm 1 0 0 pyleus 0 3 0 centos 6 6并得到错误线程 main java lang NoClass
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
feedparser 在脚本运行期间失败，但无法在交互式 python 控制台中重现

当我运行 eclipse 或在 iPython 中运行脚本时它失败了 ascii codec can t decode byte 0xe2 in position 32 ordinal not in range 128 我不知道为什么但
Abaqus 将曲面转化为集合

我一直试图在模型中找到两个表面的中心参见照片但未能成功它们是元素表面面查询中没有选项可以查找元素表面的中心只能查找元素集的中心找到节点集的中心也很好但是我的节点集没有出现在工具 gt 查询 gt 质量属性选项中而且我找不到
表达式中的 Python 'in' 关键字与 for 循环中的比较 [重复]

这个问题在这里已经有答案了我明白什么是in运算符在此代码中执行的操作 some list 1 2 3 4 5 print 2 in some list 我也明白i将采用此代码中列表的每个值 for i in 1 2 3 4 5 print
Python：尝试检查有效的电话号码

我正在尝试编写一个接受以下格式的电话号码的程序XXX XXX XXXX并将条目中的任何字母翻译为其相应的数字现在我有了这个如果启动不正确它将允许您重新输入正确的数字然后它会翻译输入的原始数字我该如何解决 def main phon
从 pygame 获取 numpy 数组

我想通过 python 访问我的网络摄像头不幸的是由于网络摄像头的原因 openCV 无法工作 Pygame camera 使用以下代码就像魅力一样 from pygame import camera display camera in
VSCode：调试配置中的 Python 路径无效

对 Python 和 VSCode 以及 stackoverflow 非常陌生直到最近我已经使用了大约 3 个月一切都很好当尝试在调试器中运行任何基本的 Python 程序时弹出窗口The Python path in your
glpk.LPX 向后兼容性？

较新版本的glpk没有LPXapi 旧包需要它我如何使用旧包例如COBRA http opencobra sourceforge net openCOBRA Welcome html 与较新版本的glpk 注意COBRA适用于 MATL
从 Python 中的类元信息对 __init__ 函数进行类型提示

我想做的是复制什么SQLAlchemy确实以其DeclarativeMeta班级有了这段代码 from sqlalchemy import Column Integer String from sqlalchemy ext declar
循环标记时出现“ValueError：无法识别的标记样式 -d”

我正在尝试编码pyplot允许不同标记样式的绘图这些图是循环生成的标记是从列表中选取的为了演示目的我还提供了一个颜色列表版本是Python 2 7 9 IPython 3 0 0 matplotlib 1 4 3 这是一个简单的代
协方差矩阵的对角元素不是 1 pandas/numpy

我有以下数据框 A B 0 1 5 1 2 6 2 3 7 3 4 8 我想计算协方差 a df iloc 0 values b df iloc 1 values 使用 numpy 作为 cov numpy cov a b I get ar
Python - 字典和列表相交

给定以下数据结构找出这两种数据结构共有的交集键的最有效方法是什么 dict1 2A 3A 4B list1 2A 4B Expected output 2A 4B 如果这也能产生更快的输出我可以将列表不是 dict1 组织到任何其他数
Python 分析：“‘select.poll’对象的‘poll’方法”是什么？

我已经使用 python 分析了我的 python 代码cProfile模块并得到以下结果 ncalls tottime percall cumtime percall filename lineno function 13937860 9

随机推荐

在php中显示链接

我正在尝试将存储在 mysql 中的 URL 显示为 php 表中的链接如下所示 echo td a href Resume a td 其中 row resume 使用 mysql fetch array 检索正确的数据但是文件链接之
检测地理位置是否在复杂多边形中

我们目前正在使用以下算法来检测地理点是否位于复杂多边形内除非多边形穿过 180 经度线否则效果很好例如在多边形中未检测到点 170 60 160 65 0 160 15 0 160 15 0 160 65 0 160 65 0 看下
ASP.NET，相当于PHP的Print_r函数吗？

PHP Print r 对于打印数组和字典集合很有用 asp net 是在这个函数中构建的吗你可以通过JavaScriptSerializer来实现 var json new JavaScriptSerializer Serialize
安装 libv8 时出错：错误：无法构建 gem 本机扩展

我做了一个 Rails 项目 rails new test bootstrap 成功了移动到项目目录并添加宝石 gem therubyracer gem less rails Sprockets what Rails 3 1 uses f
Javascript/Typescript 将默认常量导出为异步函数调用的值

我读了很多书但还没有找到有效的解决方案我见过的最接近的是这里导出React中async函数的结果请记住我想导出一个对象并且该对象是异步函数的结果而不是导出异步函数定义本身这是到目前为止我的用例和实现我们有一个名为 conf
有没有更简洁的正则表达式来完成这个任务？

首先对这个蹩脚的标题感到抱歉但我想不出更好的标题我需要测试密码以确保以下内容密码必须至少包含以下 3 项大写字母小写字母 numbers 特殊字符这是我想到的它有效但我想知道是否有更好的方法来做到这一点 Dim lower
从 3D Rcpp NumericVector 索引切片

您好我有一个关于将 NumericVector 对象视为多维数组的非常简单的 Rcpp 问题我找不到可能显而易见的答案如果是这种情况请先道歉我对 C 的经验不足是罪魁祸首如果我使用此处发布的答案在 Rcpp 中构造 3D 数组
Android 支持 JDK 6 或 7 [重复]

这个问题在这里已经有答案了我是 Android 开发新手我可以在 Android 中使用使用 JDK 7 开发的现有 Java 代码吗这些函数使用 xerces dom xslt 和 xpathapi 目前当我安装Android E
错误：控制到达非 void 函数的末尾 [-Werror=return-type] } ^

问题基本上是从给定的 n 个数字生成一个算术表达式并且该表达式应该能被 101 整除我们只能有运算符并且表达式是左关联的我已经尝试了所有可用的解决方案这些解决方案已经在堆栈溢出中提到过例如用 else 关闭表达式等等 bool
Vbscript msxml12.XMLHTTP错误处理

我使用这个 vbscript 代码来下载网页 Dim oXML Set oXML CreateObject msxm12 XMLHTTP oXML Open GET mysite com False oXML Send 如果没有这样的网站
PHP REGEX - 通过 preg_split 在换行符处将文本转换为数组

EDITED 需要有关拆分数组的帮助数组示例 array 0 gt some normal text some long text here and so on sometimes i m breaking down and some n
TFSPreview.com 和 Azure 持续部署 TFS 中的多个解决方案

我最近尝试了 Microsoft 的 TFS in the cloud 服务 TFSPreview com 感觉 TFS 团队终于明白了 TFSPreview com 可能会让我们从 GIT bug 跟踪器 powershell 切换过来
如何在多列上创建索引

我们有以下实体关系其中用户属于特定组织我的查询看起来像 select from User where org org 或 select from User where org org and type type 我在 User 类上有单
是否可以将 Nesta CMS 包含到 Rails3 应用程序中？

我想将 Nesta CMS 应用程序安装到 Rails3 应用程序上这可能是 Nesta Sinatra 应用程序的原因它应该是机架可安装层但是您会怎么做你将从哪里开始有人有关于这个话题的经验吗建议的文档嘿卢卡我一两个月
R中如何使用函数名的字符串来调用函数？

我正在尝试使用给定的函数名称字符串来调用函数 E g print funcList 1 2 sin works mult lt mult 5 6 1 30 不起作用 func1 lt funcList 1 func1 5 6 func2 l
从 URL 获取 HTTP 响应代码的最佳方法是什么？

我正在寻找一种从 URL 获取 HTTP 响应代码即 200 404 等的快速方法我不确定要使用哪个库更新使用精彩请求库请注意我们使用的是 HEAD 请求它应该比完整的 GET 或 POST 请求发生得更快 import re
将片段实例保留在 FragmentPagerAdapter 中

是否可以保留为某个片段创建的每个片段的实例 FragmentPagerAdapter在的里面FragmentPagerAdapter 像这样的东西 Override public Object instantiateItem ViewGr
同时下载多个页面？

我想用Python编写一个脚本它可以从数据库中获取url 并同时下载网页以加快速度而不是等待每个页面一个接一个地下载根据这个线程 Python 不允许这样做因为称为全局解释器锁这可以防止多次启动相同的脚本在投入时间学习 Twist
无法从jupyterhub/jupyter笔记本调用tensorflow gpu，为什么？

好吧我认为八个小时足够我自己解决这个问题所以我只想问大家我在 jupyterhub 和 Jupyter Notebook 之外的名为 tensorflow 的虚拟环境中运行 tensorflow gpu 1 1 0 运行得很好也就是
Scrapy CrawlSpider 基于 start_urls 的动态规则？

我正在编写一个 Scrapy 抓取工具它使用 CrawlSpider 来抓取网站检查其内部链接并抓取任何外部链接域与原始域不同的链接的内容我设法用两条规则来做到这一点但它们是基于正在爬网的网站的域如果我想在多个网站上运行它

Scrapy CrawlSpider 基于 start_urls 的动态规则？

Scrapy CrawlSpider 基于 start_urls 的动态规则？ 的相关文章

随机推荐

热门标签

Scrapy CrawlSpider 基于 start_urls 的动态规则？的相关文章