通过 .txt 文件向 Scrapy Spider 传递要抓取的 URL 列表

2023-11-22

我对 Python 有点陌生，对 Scrapy 也很陌生。

我已经设置了一个蜘蛛来爬行并提取我需要的所有信息。但是，我需要将 URL 的 .txt 文件传递给 start_urls 变量。

例如：

class LinkChecker(BaseSpider):
    name = 'linkchecker'
    start_urls = [] #Here I want the list to start crawling a list of urls from a text file a pass via the command line.

我做了一些研究，但总是空手而归。我见过这种类型的例子（如何在 scrapy 蜘蛛中传递用户定义的参数），但我认为这不适用于传递文本文件。

运行你的蜘蛛-a选项如：

scrapy crawl myspider -a filename=text.txt

然后读取里面的文件__init__蜘蛛的方法和定义start_urls:

class MySpider(BaseSpider):
    name = 'myspider'

    def __init__(self, filename=None):
        if filename:
            with open(filename, 'r') as f:
                self.start_urls = f.readlines()

希望有帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

commandlinearguments

Scrapy

通过 .txt 文件向 Scrapy Spider 传递要抓取的 URL 列表的相关文章

如何替换Python字符串中的正确字母

任务是您的任务是纠正数字化文本中的错误您只需处理以下错误 S 被误解为 5 O 被误解为 0 I 被误解为 1 我的代码 def correct string for i in string if 5 in string string
如何同时运行多个功能[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有以下代码 my func1 my func2 my func3 my func4 my func5 是否可以同时计算函数的数据而
NSUserNotificationCenter.defaultUserNotificationCenter() 使用 PyInstaller 返回 None

我正在尝试将通知发送到通知中心 Mac OSX 我正在使用 PyObjC 绑定来使用我们的 python 应用程序中的 cocoa api 我正在使用以下代码片段 import Foundation import objc NSUserNo
使用 scikit 时 scipy.sparse 矩阵的缩放问题

在使用 scikit learn 解决机器学习问题时我需要在使用 SVM 进行训练之前对 scipy sparse 矩阵进行缩放但在文档 http scikit learn org stable modules preprocessin
了解 Python 2.7 中的缩进错误

在编写 python 代码时我往往会遇到很多缩进错误有时当我删除并重写该行时错误就会消失有人可以为菜鸟提供 python 中 IndentationErrors 的高级解释吗以下是我在玩 CheckIO 时收到的最近 inden
如何从 python 脚本执行 7zip 命令

我试图了解如何使用 os system 模块来执行 7zip 命令现在我不想用 Popen 或 subprocess 让事情变得复杂我已经安装了 7zip 并将 7zip exe 复制到我的用户文件夹中我只想提取我的测试文件 inst
使用 python 脚本更改 shell 中的工作目录

我想实现一个用户态命令它将采用其参数之一路径并将目录更改为该目录程序完成后我希望 shell 位于该目录中所以我想实施cd命令但需要外部程序可以在 python 脚本中完成还是我必须编写 bash 包装器 Example t
在 django 中导入设置时出现奇怪的错误

我有很多项目在 ubuntu 中使用 python2 7 和 virtualenv virtualenvwrapper 工作在我的工作中一些开发人员使用 macosx 和 windows 通常我像往常一样创建项目 django admi
Flymake的临时文件可以在系统临时目录下创建吗？

我目前正在使用以下代码在 emacs 中连接 Flymake 和 Pyflakes defun flymake create temp in system tempdir filename prefix make temp file or
Python：导入模块一次然后与多个文件共享

我有如下文件 file1 py file2 py file3 py 假设这三个都使用 lib7 py lib8 py lib9 py 目前这三个文件中的每一个都有以下行 import lib7 import lib8 import lib
如何通过selenium中弹出的身份验证？

我正在尝试使用带有 Selenium 的 Python 脚本加载需要身份验证的网页 options webdriver ChromeOptions prefs download default directory r download de
如何从邻接表高效创建稀疏邻接矩阵？

我正在与last fm http labrosa ee columbia edu millionsong lastfm数据集来自百万歌曲数据集 http labrosa ee columbia edu millionsong 数据以一组 j
在Python中使用pil读取tif图像时出现值错误？

我必须读取尺寸的tif图像2200 2200并输入 uint16 我将 PIL 库与 anaconda python 一起使用如下所示 from PIL import Image img Image open test tif img i
如何检测一个二维数组是否在另一个二维数组内？

因此在堆栈溢出成员的帮助下我得到了以下代码 data needle s which is a png image base64 code goes here decoded data decode base64 f cStringIO
如何将两列 pandas Dataframe 移动并堆叠为一列？

我有一个下面提到的数据框 ETHNIC SEX USUBJID 0 HISPANIC OR LATINO F 16 1 HISPANIC OR LATINO M 8 2 HISPANIC OR LATINO Total 24 3 NOT H
tf.print() vs Python print vs tensor.eval()

看来在Tensorflow中至少有三种方法可以打印出张量的值我一直在读here https www freecodecamp org news debugging tensorflow a starter e6668ce72617 an
用 pandas DataFrame 替换 mysql 数据库表中的行

Python 版本 2 7 6 熊猫版本 0 17 1 MySQLdb 版本 1 2 5 在我的数据库中 PRODUCT 我有一张桌子 XML FEED 表 XML FEED 很大数百万条记录我有一个 pandas DataFrame
如何有效地比较 pandas DataFrame 中的行？

我有一个 pandas 数据框其中包含雷击记录以及时间戳和全球位置格式如下 Index Date Time Lat Lon Good fix 0 1 20160101 00 00 00 9962692 7 1961 60 7604 1
ProcessPoolExecutor 传递多个参数

ESPN播放器免费 class ESPNPlayerFree def init self player id match id match id team 团队名单1 277906 cA2i150s81HI3qbq1fzi za1Oq5CG
从 Django 运行 shell 命令

我正在 Django 中开发一个网页使用 apache 服务器需要调用 shell 命令来启用禁用一些守护进程我尝试这样做 os system service httpd restart 1 gt HOME out 2 gt HOM

随机推荐

给定一个边界框和一条线（两个点），确定该线是否与该框相交

给定一个边界框其定义如下bounds min x y z bounds max x y z 以及 3D 空间中的两个点表示为Vector3对象如何确定两点所形成的线是否与边界框相交这里有一个在线 C 实现线盒交点 http www
JavaScript：更改嵌入标签的 src 属性

我有以下场景我向用户展示了来自服务器的一些音频文件用户单击其中一个然后最终对选定的文件夹和文件执行 onFileSelected 该函数的作用是更改嵌入对象的源因此在某种程度上它是在接受所选文件并保存用户的选择之前对其进行的预览
如何在 VSCode 中创建自定义命令？

在 Emacs 中我可以用 Lisp 语言创建函数并将它们放在 emacs文件这些函数将成为可以从编辑器调用或绑定到按键的命令就像任何其他内置命令一样有没有办法在 VSCode 中做到这一点注意自定义命令需要能够调用其他命令简
Java Math 类的本机代码

我想知道是否有任何方法可以访问 Math 类的本机代码更具体地说我需要查看 sin 方法的代码这取决于实现如文档中所述java lang Math 与类的一些数字方法不同StrictMath 类的等效函数的所有实现Math未定义为返
std::bind 成员函数到对象实例的快捷方式，无需绑定参数

我有一个带有多个参数的成员函数我想将其绑定到特定的对象实例并将其传递给另一个函数我可以用占位符来做到这一点 actualInstance is a MyClass auto callback bind MyClass myFunctio
根据列将多个无标题列中的值替换为 0、1、2

根据评论编辑背景这是当前数据框的样子行标签是原始 Excel 文件中的信息文本但我希望这个小的数据复制足以解决问题实际文件大约有 100 列和 200 行列标题和行 0 值按照如下所示的模式重复除了Sales or Valid
如何最好地将方法传递到同一类的方法中

我有一个 C 类它是一个大而复杂的方法compute我想用计算内核来提供这是同一类的方法我想我会做一些类似的事情 class test int classVar 42 int compute add int a int b com
Wix：如果找到以前的版本，则显示自定义对话框

我想自定义我的安装程序以便在已安装以前的版本时显示自定义对话框在欢迎对话框之后用户应该看到一个自定义对话框OldVersionDlg包含已找到先前版本并将自动卸载的信息但由于某种原因设置的属性UpgradeVersion元素总是nu
集合内的流星显示数组

我想创建一个带有标签的帖子模型并且能够显示每个帖子的所有标签你知道最好的方法吗我试过这个
附加新卷时 Kubernetes Pod 处于挂起状态 (EKS)

让我描述一下我的场景 TL DR 当我在 Kubernetes 上创建带有 1 个附加卷的部署时一切都运行良好当我创建相同的部署但附加了第二个卷总共 2 个卷时 Pod 陷入待处理状态并出现错误 pod has unbound
Java：按位 OR 和 AND 比等效的逻辑运算符更快吗？

切干虽然我从来没有足够的逻辑运算使它成为性能瓶颈我想知道使用按位与和按位或而不是同名逻辑运算符会更好吗和如果可能的话也许这个问题可以这样开头我不知道有一个库可以将 Java 转换为汇编来查看操作数位运算符避免分支指令即
如何绘制多点贝塞尔曲线？

我有几点我尝试使用下面的代码绘制贝塞尔曲线 PathFigure pf new PathFigure points From ps false ps list of Bezier segments PathFigureCollection
如何在 CMake 中的不同目录中使用文件 glob

file GLOB and file GLOB RECURSE 似乎仅适用于当前源目录有什么办法可以全局不同的目录吗 file GLOB 一开始可能有点令人困惑几个月前我也遇到过类似的问题您必须直接在中指定您的路径
UIImagePickerController 显示的 VIDEO_TOO_LONG_TITLE 警报

I use a UIImagePickerController拍电影电影的长度受到设置的限制videoMaximumDuration控制器的属性当您尝试拍摄较长的电影时会按预期显示一条警报 However 意外的额外警报有权VIDEO
插件更新后詹金斯严重错误

我尝试更新几个詹金斯插件不记得是哪个但挂了大约 15 分钟后我决定重新启动 jenkins 服务器这是我在詹金斯用户界面上得到的 org jvnet hudson reactor ReactorException java lan
C 中具有严格别名和严格对齐的面向对象模式的最佳实践

我已经编写嵌入式 C 代码很多年了新一代的编译器和优化器在警告有问题代码的能力方面无疑已经进步了很多然而至少有一个根据我的经验非常常见用例继续引起悲伤其中多个结构之间共享公共基本类型考虑这个人为的例子 include
获取html页面上的所有链接？

我正在做一个小爱好项目我已经编写了获取 url 下载标头并返回 mime 类型内容类型的代码然而在此之前的步骤是我坚持的步骤我需要基于标签内部和引号中检索页面上所有网址的内容即会找到网站图标链接 net 库中有什么有用的东西吗
如何找到与任意（非成员）数字最接近的数组元素？

看似相似的问题查找数组中最接近的数字 Java 中和找到与双打数组最接近的匹配实际上是一道地理问题我有一个已排序的双打数组给定一个任意数字可能与数组元素之一完全匹配也可能不完全匹配如何返回最接近匹配的数字的索引例如
如何在 WPF 中创建基页？

我决定我的所有 WPF 页面都需要注册路由事件而不是包括 public static readonly RoutedEvent MyEvent EventManager RegisterRoutedEvent MyEvent Routin
通过 .txt 文件向 Scrapy Spider 传递要抓取的 URL 列表

我对 Python 有点陌生对 Scrapy 也很陌生我已经设置了一个蜘蛛来爬行并提取我需要的所有信息但是我需要将 URL 的 txt 文件传递给 start urls 变量例如 class LinkChecker BaseSp

通过 .txt 文件向 Scrapy Spider 传递要抓取的 URL 列表

通过 .txt 文件向 Scrapy Spider 传递要抓取的 URL 列表 的相关文章

随机推荐

热门标签

通过 .txt 文件向 Scrapy Spider 传递要抓取的 URL 列表的相关文章