在 Python 脚本中使用 Scrapy Spider 输出时出现问题

2024-01-06

我想在 python 脚本中使用蜘蛛的输出。为了实现这一点，我根据另一个代码编写了以下代码thread https://stackoverflow.com/questions/40237952/get-scrapy-crawler-output-results-in-script-file-function.

我面临的问题是，函数 Spider_results() 仅一遍又一遍地返回最后一个项目的列表，而不是包含所有找到的项目的列表。当我使用 scrapy scrapy 命令手动运行同一个蜘蛛时，我得到了所需的输出。脚本的输出、手动 json 输出和蜘蛛本身如下。

我的代码有什么问题吗？

from scrapy import signals
from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings
from circus.spiders.circus import MySpider

from scrapy.signalmanager import dispatcher


def spider_results():
    results = []

    def crawler_results(signal, sender, item, response, spider):
        results.append(item)


    dispatcher.connect(crawler_results, signal=signals.item_passed)

    process = CrawlerProcess(get_project_settings())
    process.crawl(MySpider)
    process.start()  # the script will block here until the crawling is finished
    return results


if __name__ == '__main__':
    print(spider_results())

脚本输出：

{'away_odds': 1.44,
 'away_team': 'Los Angeles Dodgers',
 'event_time': datetime.datetime(2019, 6, 8, 2, 15),
 'home_odds': 2.85,
 'home_team': 'San Francisco Giants',
 'last_update': datetime.datetime(2019, 6, 6, 20, 58, 41, 655497),
 'league': 'MLB'}, {'away_odds': 1.44,
 'away_team': 'Los Angeles Dodgers',
 'event_time': datetime.datetime(2019, 6, 8, 2, 15),
 'home_odds': 2.85,
 'home_team': 'San Francisco Giants',
 'last_update': datetime.datetime(2019, 6, 6, 20, 58, 41, 655497),
 'league': 'MLB'}, {'away_odds': 1.44,
 'away_team': 'Los Angeles Dodgers',
 'event_time': datetime.datetime(2019, 6, 8, 2, 15),
 'home_odds': 2.85,
 'home_team': 'San Francisco Giants',
 'last_update': datetime.datetime(2019, 6, 6, 20, 58, 41, 655497),
 'league': 'MLB'}]

scrapy爬行的Json输出：

[
{"home_team": "Los Angeles Angels", "away_team": "Seattle Mariners", "event_time": "2019-06-08 02:07:00", "home_odds": 1.58, "away_odds": 2.4, "last_update": "2019-06-06 20:48:16", "league": "MLB"},
{"home_team": "San Diego Padres", "away_team": "Washington Nationals", "event_time": "2019-06-08 02:10:00", "home_odds": 1.87, "away_odds": 1.97, "last_update": "2019-06-06 20:48:16", "league": "MLB"},
{"home_team": "San Francisco Giants", "away_team": "Los Angeles Dodgers", "event_time": "2019-06-08 02:15:00", "home_odds": 2.85, "away_odds": 1.44, "last_update": "2019-06-06 20:48:16", "league": "MLB"}
]

我的蜘蛛：

from scrapy.spiders import Spider
from ..items import MatchItem
import json
import datetime
import dateutil.parser

class MySpider(Spider):
    name = 'first_spider'

    start_urls = ["https://websiteXYZ.com"]

    def parse(self, response):
        item = MatchItem()

        timestamp = datetime.datetime.utcnow()

        response_json = json.loads(response.body)

        for event in response_json["el"]:
            for team in event["epl"]:
                if team["so"] == 1: item["home_team"] = team["pn"]
                if team["so"] == 2: item["away_team"] = team["pn"]

            for market in event["ml"]:
                if market["mn"] == "Match result":
                    item["event_time"] = dateutil.parser.parse(market["dd"]).replace(tzinfo=None)
                    for outcome in market["msl"]:
                        if outcome["mst"] == "1": item["home_odds"] = outcome["msp"]
                        if outcome["mst"] == "X": item["draw_odds"] = outcome["msp"]
                        if outcome["mst"] == "2": item["away_odds"] = outcome["msp"]

                if market["mn"] == 'Moneyline':
                    item["event_time"] = dateutil.parser.parse(market["dd"]).replace(tzinfo=None)
                    for outcome in market["msl"]:
                        if outcome["mst"] == "1": item["home_odds"] = outcome["msp"]
                        #if outcome["mst"] == "X": item["draw_odds"] = outcome["msp"]
                        if outcome["mst"] == "2": item["away_odds"] = outcome["msp"]


            item["last_update"] = timestamp
            item["league"] = event["scn"]

            yield item

Edit:

根据下面的答案，我尝试了以下两个脚本：

控制器.py

import json
from scrapy import signals
from scrapy.crawler import CrawlerRunner
from twisted.internet import reactor, defer
from betsson_controlled.spiders.betsson import Betsson_Spider
from scrapy.utils.project import get_project_settings


class MyCrawlerRunner(CrawlerRunner):
    def crawl(self, crawler_or_spidercls, *args, **kwargs):
        # keep all items scraped
        self.items = []

        # create crawler (Same as in base CrawlerProcess)
        crawler = self.create_crawler(crawler_or_spidercls)

        # handle each item scraped
        crawler.signals.connect(self.item_scraped, signals.item_scraped)

        # create Twisted.Deferred launching crawl
        dfd = self._crawl(crawler, *args, **kwargs)

        # add callback - when crawl is done cal return_items
        dfd.addCallback(self.return_items)
        return dfd

    def item_scraped(self, item, response, spider):
        self.items.append(item)

    def return_items(self, result):
        return self.items

def return_spider_output(output):
    return json.dumps([dict(item) for item in output])

settings = get_project_settings()
runner = MyCrawlerRunner(settings)
spider = Betsson_Spider()
deferred = runner.crawl(spider)
deferred.addCallback(return_spider_output)


reactor.run()
print(deferred)

当我执行controller.py时，我得到：

<Deferred at 0x7fb046e652b0 current result: '[{"home_team": "St. Louis Cardinals", "away_team": "Pittsburgh Pirates", "home_odds": 1.71, "away_odds": 2.19, "league": "MLB"}, {"home_team": "St. Louis Cardinals", "away_team": "Pittsburgh Pirates", "home_odds": 1.71, "away_odds": 2.19, "league": "MLB"}, {"home_team": "St. Louis Cardinals", "away_team": "Pittsburgh Pirates", "home_odds": 1.71, "away_odds": 2.19, "league": "MLB"}, {"home_team": "St. Louis Cardinals", "away_team": "Pittsburgh Pirates", "home_odds": 1.71, "away_odds": 2.19, "league": "MLB"}, {"home_team": "St. Louis Cardinals", "away_team": "Pittsburgh Pirates", "home_odds": 1.71, "away_odds": 2.19, "league": "MLB"}, {"home_team": "St. Louis Cardinals", "away_team": "Pittsburgh Pirates", "home_odds": 1.71, "away_odds": 2.19, "league": "MLB"}, {"home_team": "St. Louis Cardinals", "away_team": "Pittsburgh Pirates", "home_odds": 1.71, "away_odds": 2.19, "league": "MLB"}, {"home_team": "St. Louis Cardinals", "away_team": "Pittsburgh Pirates", "home_odds": 1.71, "away_odds": 2.19, "league": "MLB"}]'>

最近的编辑：看完之后CrawlerProcess 与 CrawlerRunner https://stackoverflow.com/questions/39706005/crawlerprocess-vs-crawlerrunner我意识到您可能想要 CrawlerProcess。我必须使用 runner，因为我需要 klein 才能使用延迟对象。流程只需要 scrapy，而运行程序则希望与其他脚本/程序进行交互。希望这有帮助。

您需要修改 CrawlerRunner/Process 并使用信号和/或回调将项目传递到 CrawlerRunner 中的脚本中。

如何整合 Flask 和 Scrapy？ https://stackoverflow.com/questions/36384286/how-to-integrate-flask-scrapy如果您查看顶部答案中的选项，则带有twisted klein 和 scrapy 的选项就是您正在寻找的示例，因为它执行相同的操作，除了在爬行后将其发送到 Klein http 服务器之外。您可以使用 CrawlerRunner 设置类似的方法，以便在脚本爬行时将每个项目发送到脚本。注意：此特定问题在收集项目后将结果发送到 Klein Web 服务器。答案是创建一个 API，它收集结果并等待抓取完成，然后将其转储为 JSON，但您可以将相同的方法应用于您的情况。主要关注的是 CrawlerRunner 如何进行子类化和扩展以添加额外的功能。

您想要做的是有一个单独的脚本来执行，该脚本导入您的 Spider 并扩展 CrawlerRunner。然后，您执行此脚本，它将启动 Twisted Reactor 并使用您的自定义运行器启动爬行过程。

也就是说，这个问题可能可以在项目管道中得到解决。创建自定义项目管道并在返回项目之前将项目传递到脚本中。

# main.py

import json
from scrapy import signals
from scrapy.crawler import CrawlerProcess
from twisted.internet import reactor, defer # import we missed
from myproject.spiders.mymodule import MySpiderName
from scrapy.utils.project import get_project_settings


class MyCrawlerProcess(CrawlerProcess):
    def crawl(self, crawler_or_spidercls, *args, **kwargs):
        # keep all items scraped
        self.items = []

        crawler = self.create_crawler(crawler_or_spidercls)

        crawler.signals.connect(self.item_scraped, signals.item_scraped)

        dfd = self._crawl(crawler, *args, **kwargs)

        dfd.addCallback(self.return_items)
        return dfd

    def item_scraped(self, item, response, spider):
        self.items.append(item)

    def return_items(self, result):
        return self.items


def return_spider_output(output):
    return json.dumps([dict(item) for item in output])


process = MyCrawlerProcess()
deferred = process.crawl(MySpider)
deferred.addCallback(return_spider_output)


process.start() - Script should block here again but I'm not sure if it will work right without using reactor.run()
print(deferred)

同样，这段代码是我未经测试的猜测。我希望它能朝着更好的方向适合你。

参考：

https://docs.scrapy.org/en/latest/topics/signals.html https://docs.scrapy.org/en/latest/topics/signals.html
https://docs.scrapy.org/en/latest/topics/practices.html?highlight=crawlerrunner https://docs.scrapy.org/en/latest/topics/practices.html?highlight=crawlerrunner
https://twistedmatrix.com/documents/16.2.0/core/howto/defer.html https://twistedmatrix.com/documents/16.2.0/core/howto/defer.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Scrapy

在 Python 脚本中使用 Scrapy Spider 输出时出现问题的相关文章

在 Python 中解析 TCL 列表

我需要在双括号上拆分以空格分隔的 TCL 列表例如 OUTPUT 172 25 50 10 01 01 Ethernet 172 25 50 10 01 02 Ethernet Traffic Item 1 172 25 50 10 01
如何计算 pandas datetime 对象的均值和方差？

如何计算 YYYY MM DD 形式的 python 日期时间对象的汇总统计数据均值和标准差我想对具有不同 ID 的不同日期时间对象组执行此操作数据如下 import datetime as dt df pd DataFrame Da
Pandas set_levels，如何避免标签排序？

我使用时遇到问题set levels多索引 from io import StringIO txt Name Height Age Metres A 1 25 B 95 1 df pd read csv StringIO txt heade
Python 类型提示 Dict 语法错误可变默认值是不允许的。使用“默认工厂”

我不知道为什么解释器会抱怨这个类型的字典对于这两个实例我得到一个不允许可变默认值使用默认工厂语法错误我使用的是 python 3 7 3 from dataclasses import dataclass from typing
pandas DataFrame.join 的运行时间是多少（大“O”顺序）？

这个问题更具概念性理论性与非常大的数据集的运行时间有关所以我很抱歉没有一个最小的例子来展示我有一堆来自两个不同传感器的数据帧我需要最终将它们连接成两个very来自两个不同传感器的大数据帧 df snsr1 and df snsr2
VSCode Settings.json 丢失

我正在遵循教程并尝试将 vscode 指向我为 Scrapy 设置的虚拟工作区但是当我在 VSCode 中打开设置时工作区设置选项卡不在用户设置选项卡旁边我还尝试通过以下方式手动转到文件 APPDATA Code User s
Django Rest Framework 是否有第三方应用程序来自动生成 swagger.yaml 文件？

我有大量的 API 端点编写在django rest framework并且不断增加和更新如何创建和维护最新的 API 文档我当前的版本是 Create swagger yaml文件并以某种方式在每次端点更改时自动生成然后使用此文件作
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
使用主题交换运行多个 Celery 任务

我正在用 Celery 替换一些自制代码但很难复制当前的行为我期望的行为如下创建新用户时应向tasks与交换user created路由键该消息应该触发两个 Celery 任务即send user activate email
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
为什么一旦我离开内置的运行服务器，Django 就无法找到我的管理媒体文件？

当我使用内置的简单服务器时一切正常管理界面很漂亮 python manage py runserver 但是当我尝试使用 wsgi 服务器为我的应用程序提供服务时django core handlers wsgi WSGIHandle
无法导入 langchain.agents.load_tools

我正在尝试使用 LangChain Agents 但无法导入 load tools 版本 langchain 0 0 27 我尝试过这些 from langchain agents import initialize agent from
未知错误：Chrome 无法启动：异常退出

当我使用 chromedriver 对 Selenium 运行测试时出现此错误 selenium common exceptions WebDriverException Message unknown error Chrome fail
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
如何使用 Python 3 检查目录是否包含文件

我到处寻找这个答案但找不到我正在尝试编写一个脚本来搜索特定的子文件夹然后检查它是否包含任何文件如果包含则写出该文件夹的路径我已经弄清楚了子文件夹搜索部分但检查文件却难倒了我我发现了有关如何检查文件夹是否为空的多个建议并且我尝
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
等待子进程使用 os.system

我用了很多os system在 for 循环内调用创建后台进程如何等待所有后台进程结束 os wait告诉我没有子进程 ps 我使用的是Solaris 这是我的代码 usr bin python import subprocess imp
根据 Pandas 中的列表选择数据框行的子集

我有一个数据框df1并列出x In 22 import pandas as pd In 23 df1 pd DataFrame C range 5 B range 10 20 2 A list abcde In 24 df1 Out 24
python 对浮点数进行不正确的舍入

gt gt gt a 0 3135 gt gt gt print 3f a 0 314 gt gt gt a 0 3125 gt gt gt print 3f a 0 312 gt gt gt 我期待 0 313 而不是 0 312 有没有
如何在Python脚本中从youtube-dl中提取文件大小？

我是 python 编程新手我想在下载之前提取视频音频大小任何 YouTube 视频 gt gt gt from youtube dl import YoutubeDL gt gt gt url https www youtube c

随机推荐

Django - 使用模板标签和“with”？

我有一个自定义模板标签 def uploads for user user uploads Uploads objects filter uploaded by user problem upload False num uploads u
基于支持向量的数据重采样器

我正在努力实现一个数据重采样器以基于support vectors 这个想法是为了适应SVM分类器得到support vector类的点然后通过仅选择每个类的支持向量点附近的数据点来平衡数据以使类具有相同数量的示例忽略所有其他远离
Google Plus API 错误gapi.loaded_0

我尝试将 requireJS 与 Google plus API 一起使用但是当我单击登录按钮时出现错误这是错误和屏幕截图 GET https apis google com scs apps static js k oz gapi e
如何在pytorch中使用LSTM进行分类？

我的代码如下 class Mymodel nn Module def init self input size hidden size output size num layers batch size super Discriminato
在非活动类中显示进度对话框

我正在尝试在非活动类中显示对话框基本上我在我的应用程序中检测到一个对象我想显示一个对话框然后切换活动我在 logcat 中收到 java lang RuntimeException 无法在未调用 Looper prepare 的线
链接方法时如何返回 false

我有一个使用方法链的验证类我希望能够进行单次检查TRUE FALSE像这样 if obj gt checkSomething 但也有像这样的链方法 if obj gt checkSomething gt checkSomethingEls
将代码转换为 R 中的函数

我有一系列的步骤我想将它们转换为函数因此我只需通过调用它们即可将其应用于数据框下面是带有一些注释的代码 library textreadr library pdftools library tidyverse library tidy
函数上的模板模板参数

这是 C 模板中的有效模板构造吗 template lt template
在Qt中鼠标指针下选择Word

当我在 QTextBrowser 中右键单击时我需要突出显示并获取鼠标指针下的单词我已经实施了显示上下文菜单函数为QText浏览器对于鼠标右键单击的事情但是我无法突出显示鼠标指针下的单词并提取它我在网上找到了如下解决方案 QText
为什么这个 getchar() 循环在输入一个字符后停止？

include
swig 没有名为 _example 的模块

我无法在 Windows 上重现基本的 SWIG 示例我的错误已在 SWIG 文档中说明我确信我已执行他们提到的 2 个修复对于这个错误 gt gt gt import example Traceback most recent ca
编辑 php.ini 文件

我想增加内存限制最大输入时间最大执行时间 in WAMP server 有 3 个php ini files 1 C wamp bin apache Apache2 4 4 bin php ini br 2 C wamp bin php
AngularJS：ng-bind-html 不适用于按钮标签

我在 div ng bind html 中动态打印输入类型按钮时遇到问题 HTML 模板
为什么当我更新实体框架模型时 Visual Studio 会删除我的类

当我更新 EF 模型版本 5 时我遇到了一个奇怪的问题它删除属于该模型的所有类我的情况是这样的我更改了两个表的键列这两个表引用了我的主表更新模型并未对 edmx 进行这些更改因此我删除了这三个表主表和两个查找表保存了 e
Firebase android 无法在测试设备之外工作

我有这个新应用程序并添加了 Firebase Firestore 和 Cloud Firestore 用户可以使用邮箱和密码进行注册并登录成功然后用户可以在我的个人资料中输入生日并更新信息问题是这样的在模拟器中工作正常在测试设备
Oracle：年份必须介于 -4713 和 +9999 之间，并且不能为 0

我有一个像这样的 Oracle 表 EMPNO HIREDATE INDEX NUM 1 2012 11 13 1 2 2 1 3 2012 11 17 1 4 2012 11 21 1 5 2012 11 24 1 6 2013 11 2
Symfony 2.4 从控制器执行命令

我想从我的控制器执行命令 fos elastica populate 我尝试了该代码但它不起作用我得到错误 1 var dump 显示 command fos elastica populate app new Application
将 ASP.NET 菜单控件绑定到 XML

我正在尝试将我自己的 xml 文件出于某些特定目的我不想使用站点地图绑定到 ASP NET 控件我有这段代码在我找到的一些文章的帮助下应该将 ASP NET 菜单控件绑定到 xml 文件但事实并非如此我错过了什么吗 XmlD
调试器（或日志）中类似 NSDictionary 的漂亮打印

这已经困扰我一段时间了如何抵消在调试器中转储对象时发生的丑陋转义po foo 或通过NSLog 我尝试了多种方法来实施 description or debugDescription无济于事鉴于这个简单的类 interface Foo
在 Python 脚本中使用 Scrapy Spider 输出时出现问题

我想在 python 脚本中使用蜘蛛的输出为了实现这一点我根据另一个代码编写了以下代码thread https stackoverflow com questions 40237952 get scrapy crawler output

在 Python 脚本中使用 Scrapy Spider 输出时出现问题

在 Python 脚本中使用 Scrapy Spider 输出时出现问题 的相关文章

随机推荐

热门标签

在 Python 脚本中使用 Scrapy Spider 输出时出现问题的相关文章