如何以编程方式设置和启动 Scrapy 蜘蛛（url 和设置）

2024-01-07

我用 scrapy 写了一个工作爬虫，
现在我想通过Django webapp来控制它，也就是说：

设置1个或多个start_urls
设置1个或多个allowed_domains
Set settings values
启动蜘蛛
停止/暂停/恢复蜘蛛
运行时检索一些统计数据
蜘蛛完成后检索一些统计数据。

起初我以为scrapyd https://scrapy.readthedocs.org/en/latest/topics/scrapyd.html是为此而设计的，但在阅读文档后，它似乎更像是一个能够管理“打包蜘蛛”（又名“碎蛋”）的守护进程；并且所有设置（start_urls , allowed_domains, settings）仍然必须硬编码在“scrapy Egg”本身中；所以它看起来不像是我的问题的解决方案，除非我错过了一些东西。

我也看了这个问题：如何给scrapy提供URL进行爬取？ https://stackoverflow.com/questions/9681114/how-to-give-url-to-scrapy-for-crawling/12749782#12749782; 但提供多个 url 的最佳答案被作者 Himeslf 称为“丑陋的黑客”，涉及一些 python 子进程和复杂的 shell 处理，所以我认为在这里找不到解决方案。另外，它可能适用于start_urls，但似乎不允许allowed_domains or settings.

然后我看了看scrapy网络服务 https://scrapy.readthedocs.org/en/latest/topics/webservice.html?highlight=webservices#topics-webservice-crawler：这似乎是检索统计数据的好解决方案。然而，它仍然需要一个正在运行的蜘蛛，并且没有任何改变的线索settings

关于这个主题有几个问题，但没有一个问题令人满意：

使用一个 scrapy-spider 处理多个网站 https://stackoverflow.com/questions/2396529/using-one-scrapy-spider-for-several-websites这个似乎已经过时了，因为 scrapy 自 0.7 以来已经发展了很多
创建一个通用的 scrapy-spider https://stackoverflow.com/questions/9814827/creating-a-generic-scrapy-spider没有接受的答案，仍在讨论调整 shell 参数。

我知道生产环境使用的是scrapy；像 scrapyd 这样的工具表明，肯定有一些方法可以处理这些要求（我无法想象 scrapyd 正在处理的 scrapy Eggs 是手工生成的！）

非常感谢你的帮助。

起初我以为 scrapyd 就是为此而设计的，但读完文档后，它似乎更像是一个能够管理“打包蜘蛛”（又名“scrapy Eggs”）的守护进程；并且所有设置（start_urls、allowed_domains、settings）仍然必须硬编码在“scrapy Egg”本身中；所以它看起来不像是我的问题的解决方案，除非我错过了一些东西。

我不同意上面的说法，start_urls 不需要硬编码，它们可以动态传递给类，你应该能够将它作为参数传递，如下所示

http://localhost:6800/schedule.json -d project=myproject -d spider=somespider -d setting=DOWNLOAD_DELAY=2 -d arg1=val1

或者您应该能够从数据库或文件中检索 URL。我从这样的数据库中获取它

class WikipediaSpider(BaseSpider):
    name = 'wikipedia'
    allowed_domains = ['wikipedia.com']
    start_urls = []

    def __init__(self, name=None, url=None, **kwargs):
        item = MovieItem()
        item['spider'] = self.name
        # You can pass a specific url to retrieve 
        if url:
            if name is not None:
                self.name = name
            elif not getattr(self, 'name', None):
                raise ValueError("%s must have a name" % type(self).__name__)
            self.__dict__.update(kwargs)
            self.start_urls = [url]
        else:
            # If there is no specific URL get it from Database
            wikiliks = # < -- CODE TO RETRIEVE THE LINKS FROM DB -->
            if wikiliks == None:
                print "**************************************"
                print "No Links to Query"
                print "**************************************"
                return None

            for link in wikiliks:
                # SOME PROCESSING ON THE LINK GOES HERE
                self.start_urls.append(urllib.unquote_plus(link[0]))

    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        # Remaining parse code goes here

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何以编程方式设置和启动 Scrapy 蜘蛛（url 和设置）的相关文章

多输出堆叠回归器

一次性问题我正在尝试构建一个多输入堆叠回归器添加到 sklearn 0 22 据我了解我必须结合StackingRegressor and MultiOutputRegressor 经过多次尝试这似乎是正确的顺序 import nu
嵌套列表的重叠会产生不必要的间隙

我有一个包含三个列表的嵌套这些列表由 for 循环填充并且填充由 if 条件控制第一次迭代后它可能类似于以下示例 a 1 2 0 0 0 0 0 0 4 5 0 0 0 0 0 0 6 7 根据条件它们不重叠在第二次迭代之后新
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
从Django中具有外键关系的两个表中检索数据？ [复制]

这个问题在这里已经有答案了 This is my models py file from django db import models class Author models Model first name models CharFie
python multiprocessing 设置生成进程等待

是否可以生成一些进程并将生成进程设置为等待生成的进程完成下面是我用过的一个例子 import multiprocessing import time import sys def daemon p multiprocessing curr
Pycharm 在 os.path 连接上出现“未解析的引用”

将pycharm升级到2018 1 并将python升级到3 6 5后 pycharm报告未解析的引用 join 最新版本的 pycharm 不会显示以下行的任何警告 from os path import join expanduser
MongoEngine 查询具有以列表中指定的前缀开头的属性的对象的列表

我需要在 Mongo 数据库中查询具有以列表中任何前缀开头的特定属性的元素现在我有一段这样的代码 query mymodel terms term in query terms 并且这会匹配在列表 term 上有一个项目的对象该列表中的
打印包含字符串和其他 2 个变量的变量

var a 8 var b 3 var c hello my name is var a and var b bye print var c 当我运行程序时 var c 会像这样打印出来 hello my name is 8 and 3 b
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
Python 3：将字符串转换为变量[重复]

这个问题在这里已经有答案了我正在从 txt 文件读取文本并且需要使用我读取的数据之一作为类实例的变量 class Sports def init self players 0 location name self players pla
嵌套作用域和 Lambda

def funct x 4 action lambda n x n return action x funct print x 2 prints 16 我不太明白为什么2会自动分配给n n是返回的匿名函数的参数funct 完全等价的定义fu
python的shutil.move()在linux上是原子的吗？

我想知道python的shutil move在linux上是否是原子的如果源文件和目标文件位于两个不同的分区上行为是否不同或者与它们存在于同一分区上时的行为相同吗我更关心的是如果源文件和目标文件位于同一分区上 shutil move
通过Python连接到Bigquery：ProjectId和DatasetId必须非空

我编写了以下脚本来通过 SDK 将 Big Query 连接到 Python 如下所示 from google cloud import bigquery client bigquery Client project My First Pr
当字段是数字时怎么说...在 mongodb 中匹配？

所以我的结果中有一个名为城市的字段结果已损坏有时它是一个实际名称有时它是一个数字以下代码显示所有记录 db zips aggregate project city substr city 0 1 sort city 1 我需要修
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
如何使用 Python 3 检查目录是否包含文件

我到处寻找这个答案但找不到我正在尝试编写一个脚本来搜索特定的子文件夹然后检查它是否包含任何文件如果包含则写出该文件夹的路径我已经弄清楚了子文件夹搜索部分但检查文件却难倒了我我发现了有关如何检查文件夹是否为空的多个建议并且我尝
python 中的“槽包装器”是什么？

object dict 和其他地方的隐藏方法设置为这样的
每当使用 import cv2 时 OpenCV 都会出错

我在终端上使用 pip3 install opencv contrib python 安装了 cv2 并且它工作了但是每当我尝试导入 cv2 或运行导入了 cv2 的 vscode 文件时在 python IDLE 上它都会说 Trac
在virtualenv中下载sqlite3

我正在尝试使用命令创建应用程序python3 manage py startapp webapp但我收到一条错误消息 django core exceptions ImproperlyConfigured 加载时出错 pysqlite2 或
python 对浮点数进行不正确的舍入

gt gt gt a 0 3135 gt gt gt print 3f a 0 314 gt gt gt a 0 3125 gt gt gt print 3f a 0 312 gt gt gt 我期待 0 313 而不是 0 312 有没有

随机推荐

java，获取设置方法

这个问题之前已经被问过但即使在阅读之后 Java 获取和设置方法 https stackoverflow com questions 23189672 java get and set methods Java Get Set 方法
如何在 Anaconda Jupyter 笔记本上运行金字塔自动 arima？

显然 Anaconda 有一个不同的金字塔包它是针对 Web 框架的 https anaconda org anaconda pyramid https anaconda org anaconda pyramid arima Pyrami
Firebase UI - facebook、google 和电子邮件登录无法正常工作

我在我的应用程序中使用 firebase ui 进行登录当我在调试模式下运行它时一切正常完全没有错误我用手机运行它效果很好当我将应用程序上传到 Play 商店时我的问题就开始了当用户尝试使用 Facebook 登录时它会告
Amazon DynamoDB——特定于区域的连接

我正在使用botoPython 中的库用于连接到 DynamoDB 以下代码对我来说效果很好 import boto key abc secret 123 con boto connect dynamodb key secret table
如何防止跟踪的配置文件被 git 中的合并更改？

我有一个 Web 项目有两个 git 分支开发和生产每个分支连接到不同的服务器开发和生产每个分支都有一组跟踪的配置文件例如不同的 URL 数据库选项 sql 导出文件等这些文件在两个分支上都是不同的每次我尝试合并这些分支时
按对象类型进行 LINQ 选择

我有一个包含两种类型的对象 A 和 B 的集合 Class Base Class A Base Class B Base List collection new List collection Add new A collection Ad
关于 Swagger API 的建议

我正在使用 SpringBoot 和 Spring REST 服务使用 Java 8 构建 API 我刚刚发现了 Swagger API 现在我想让我的 API Swagger 兼容据我所知 Swagger 是一个记录 API 的工具除
从 Azure Cosmos DB 导出数据（其中类型为 MongoDB API）

我需要将数据以 CSV 或 JSON 格式从 Azure Cosmos DB 导出到本地系统有人能帮我吗你可以使用cosmos 数据库迁移工具 https learn microsoft com en us azure cosmos d
分隔来自套接字的数据

在我的 Java 应用程序中有一个 Socket 打开并且正在从其 InputStream 读取数据在最佳条件下每个传入的数据包都会调用 read 返回其应用层数据这就是我想要得到的每一条消息 packet 但是数据可能会根
如何调用离用户最近的云函数

我有一个像这样的云函数它已设置为在多个区域运行 export const cloudFunction functions region asia south1 us central1 europe west1 southamerica e
Android Firebase如何在特定用户下保存和检索数据

我正在尝试将我的应用程序与 firebase 集成以在云上保存简单数据 Example 用户打开应用程序并登录用户写一些东西数据保存在云端当用户再次使用该应用程序时他将看到他的数据我已阅读文档但我找不到任何示例结构在用户和数据
Dapper：具有重复列名称的多重映射

我有一个看起来像这样的表 ID ERR1 ERR2 ERR3 05A2 A001 B223 C212 06B3 B392 C234 D234 我想将其映射到如下所示的对象 public class Entry public string I
如何在没有 UIWebView 的情况下播放 youtube 视频或当 youtube 视频开始使用 webview 播放时检测视频播放器？

我需要在我的 iOS 应用程序中播放 YouTube 视频并且在播放视频时我需要在视频上添加叠加层 1 现在如何在本机播放器中运行 youtube 视频 2 如果我在 UIWebview 中播放视频那么我如何检测该视频是播放以及如何在
使用gdb查找程序卡在哪里

我的程序无法正常工作看起来它陷入了无限循环或错误的互斥锁定解锁但是我不知道错误在哪里我尝试使用 gdb 进行调试我无法使用 gdb backtrace 命令因为我没有指定断点我无法指定它因为我不知道错误在哪里 gdb 有
Awesome-wm 中特定标签下的应用程序自动启动

我读过了在 Awesome wm 中为特定应用程序设置窗口布局 https stackoverflow com questions 5120399 setting windows layout for a specific applicat
NuGet - 从命令行添加新的包源

我有一个场景我在 VSTS 中创建构建我无权访问托管代理的虚拟机并且未将其设置为包含我们的内部包源我确实可以通过命令行 powershell 进行访问如何通过命令行向 VS2017 添加新的包源或者我什至可以这样做您可以使用
symfony 4 设置以匿名身份登录

我正在研究一个Symfony 4项目尝试登录后它使用匿名令牌将我重定向回登录页面我的设置是使用来自的登录表单symfony docs 单击登录后我的会话只有csrf authenticate属性有什么想法我做错了什么吗安全 ya
企业架构师显示奇怪的符号。这是什么意思？

有时我在开始更详细的 UML 工作和开发之前构建的一些不是全部需求工件上会出现一个红色三角形我不知道是什么原因造成的也不知道它想表达什么更重要的是我无法摆脱它据我所知这与 UML 或 SysML 规范无关是吗谁能解释一
对话框布局双层错误透明背景

我想制作一个白色的无边框的弹出视图为了实现此目的我使用具有自定义样式的自定义对话框 public Builder createNewDialog int type AlertDialog Builder dlg null switch
如何以编程方式设置和启动 Scrapy 蜘蛛（url 和设置）

我用 scrapy 写了一个工作爬虫现在我想通过Django webapp来控制它也就是说设置1个或多个start urls 设置1个或多个allowed domains Set settings values 启动蜘蛛停止暂停

如何以编程方式设置和启动 Scrapy 蜘蛛（url 和设置）

如何以编程方式设置和启动 Scrapy 蜘蛛（url 和设置） 的相关文章

随机推荐

热门标签

如何以编程方式设置和启动 Scrapy 蜘蛛（url 和设置）的相关文章