通过 .txt 文件向 Scrapy Spider 传递要抓取的 URL 列表

2023-11-22

我对 Python 有点陌生,对 Scrapy 也很陌生。

我已经设置了一个蜘蛛来爬行并提取我需要的所有信息。但是,我需要将 URL 的 .txt 文件传递​​给 start_urls 变量。

例如:

class LinkChecker(BaseSpider):
    name = 'linkchecker'
    start_urls = [] #Here I want the list to start crawling a list of urls from a text file a pass via the command line.

我做了一些研究,但总是空手而归。我见过这种类型的例子(如何在 scrapy 蜘蛛中传递用户定义的参数),但我认为这不适用于传递文本文件。


运行你的蜘蛛-a选项如:

scrapy crawl myspider -a filename=text.txt

然后读取里面的文件__init__蜘蛛的方法和定义start_urls:

class MySpider(BaseSpider):
    name = 'myspider'

    def __init__(self, filename=None):
        if filename:
            with open(filename, 'r') as f:
                self.start_urls = f.readlines()

希望有帮助。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

通过 .txt 文件向 Scrapy Spider 传递要抓取的 URL 列表 的相关文章

随机推荐

  • 给定一个边界框和一条线(两个点),确定该线是否与该框相交

    给定一个边界框 其定义如下bounds min x y z bounds max x y z 以及 3D 空间中的两个点 表示为Vector3对象 如何确定两点所形成的线是否与边界框相交 这里有一个在线 C 实现 线盒交点 http www
  • JavaScript:更改嵌入标签的 src 属性

    我有以下场景 我向用户展示了来自服务器的一些音频文件 用户单击其中一个 然后最终对选定的文件夹和文件执行 onFileSelected 该函数的作用是更改嵌入对象的源 因此 在某种程度上 它是在接受所选文件并保存用户的选择之前对其进行的预览
  • 如何在 VSCode 中创建自定义命令?

    在 Emacs 中 我可以用 Lisp 语言创建函数并将它们放在 emacs文件 这些函数将成为可以从编辑器调用或绑定到按键的命令 就像任何其他内置命令一样 有没有办法在 VSCode 中做到这一点 注意 自定义命令需要能够调用其他命令 简
  • Java Math 类的本机代码

    我想知道是否有任何方法可以访问 Math 类的本机代码 更具体地说 我需要查看 sin 方法的代码 这取决于实现 如文档中所述java lang Math 与类的一些数字方法不同StrictMath 类的等效函数的所有实现Math未定义为返
  • std::bind 成员函数到对象实例的快捷方式,无需绑定参数

    我有一个带有多个参数的成员函数 我想将其绑定到特定的对象实例并将其传递给另一个函数 我可以用占位符来做到这一点 actualInstance is a MyClass auto callback bind MyClass myFunctio
  • 根据列将多个无标题列中的值替换为 0、1、2

    根据评论编辑 背景 这是当前数据框的样子 行标签是原始 Excel 文件中的信息文本 但我希望这个小的数据复制足以解决问题 实际文件大约有 100 列和 200 行 列标题和行 0 值按照如下所示的模式重复 除了Sales or Valid
  • 如何最好地将方法传递到同一类的方法中

    我有一个 C 类 它是一个大而复杂的方法compute我想用 计算内核 来提供 这是同一类的方法 我想我会做一些类似的事情 class test int classVar 42 int compute add int a int b com
  • Wix:如果找到以前的版本,则显示自定义对话框

    我想自定义我的安装程序 以便在已安装以前的版本时显示自定义对话框 在欢迎对话框之后 用户应该看到一个自定义对话框OldVersionDlg包含已找到先前版本并将自动卸载的信息 但由于某种原因设置的属性UpgradeVersion元素总是nu
  • 集合内的流星显示数组

    我想创建一个带有标签的帖子模型 并且能够显示每个帖子的所有标签 你知道最好的方法吗 我试过这个
  • 附加新卷时 Kubernetes Pod 处于挂起状态 (EKS)

    让我描述一下我的场景 TL DR 当我在 Kubernetes 上创建带有 1 个附加卷的部署时 一切都运行良好 当我创建相同的部署 但附加了第二个卷 总共 2 个卷 时 Pod 陷入 待处理 状态并出现错误 pod has unbound
  • Java:按位 OR 和 AND 比等效的逻辑运算符更快吗?

    切干 虽然我从来没有足够的逻辑运算使它成为性能瓶颈 我想知道 使用按位与 和按位或 而不是同名逻辑运算符会更好吗 和 如果可能的话 也许这个问题可以这样开头 我不知道有一个库可以将 Java 转换为汇编来查看操作数 位运算符避免分支指令 即
  • 如何绘制多点贝塞尔曲线?

    我有几点 我尝试使用下面的代码绘制贝塞尔曲线 PathFigure pf new PathFigure points From ps false ps list of Bezier segments PathFigureCollection
  • 如何在 CMake 中的不同目录中使用文件 glob

    file GLOB and file GLOB RECURSE 似乎仅适用于当前源目录 有什么办法可以全局不同的目录吗 file GLOB 一开始可能有点令人困惑 几个月前我也遇到过类似的问题 您必须直接在中指定您的路径
  • UIImagePickerController 显示的 VIDEO_TOO_LONG_TITLE 警报

    I use a UIImagePickerController拍电影 电影的长度受到设置的限制videoMaximumDuration控制器的属性 当您尝试拍摄较长的电影时 会按预期显示一条警报 However 意外的额外警报有权VIDEO
  • 插件更新后詹金斯严重错误

    我尝试更新几个詹金斯插件 不记得是哪个 但挂了 大约 15 分钟后 我决定重新启动 jenkins 服务器 这是我在詹金斯用户界面上得到的 org jvnet hudson reactor ReactorException java lan
  • C 中具有严格别名和严格对齐的面向对象模式的最佳实践

    我已经编写嵌入式 C 代码很多年了 新一代的编译器和优化器在警告有问题代码的能力方面无疑已经进步了很多 然而 至少有一个 根据我的经验 非常常见 用例继续引起悲伤 其中多个结构之间共享公共基本类型 考虑这个人为的例子 include
  • 获取html页面上的所有链接?

    我正在做一个小爱好项目 我已经编写了获取 url 下载标头并返回 mime 类型 内容类型的代码 然而 在此之前的步骤是我坚持的步骤 我需要基于标签内部和引号中检索页面上所有网址的内容 即 会找到网站图标链接 net 库中有什么有用的东西吗
  • 如何找到与任意(非成员)数字最接近的数组元素?

    看似相似的问题 查找数组中最接近的数字 Java 中 和 找到与双打数组最接近的匹配 实际上是一道地理问题 我有一个 已排序的 双打数组 给定一个任意数字 可能与数组元素之一完全匹配 也可能不完全匹配 如何返回最接近匹配的数字的索引 例如
  • 如何在 WPF 中创建基页?

    我决定我的所有 WPF 页面都需要注册路由事件 而不是包括 public static readonly RoutedEvent MyEvent EventManager RegisterRoutedEvent MyEvent Routin
  • 通过 .txt 文件向 Scrapy Spider 传递要抓取的 URL 列表

    我对 Python 有点陌生 对 Scrapy 也很陌生 我已经设置了一个蜘蛛来爬行并提取我需要的所有信息 但是 我需要将 URL 的 txt 文件传递 给 start urls 变量 例如 class LinkChecker BaseSp