我对 Python 有点陌生,对 Scrapy 也很陌生。
我已经设置了一个蜘蛛来爬行并提取我需要的所有信息。但是,我需要将 URL 的 .txt 文件传递给 start_urls 变量。
例如:
class LinkChecker(BaseSpider):
name = 'linkchecker'
start_urls = [] #Here I want the list to start crawling a list of urls from a text file a pass via the command line.
我做了一些研究,但总是空手而归。我见过这种类型的例子(如何在 scrapy 蜘蛛中传递用户定义的参数),但我认为这不适用于传递文本文件。
运行你的蜘蛛-a
选项如:
scrapy crawl myspider -a filename=text.txt
然后读取里面的文件__init__
蜘蛛的方法和定义start_urls
:
class MySpider(BaseSpider):
name = 'myspider'
def __init__(self, filename=None):
if filename:
with open(filename, 'r') as f:
self.start_urls = f.readlines()
希望有帮助。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)