如何使用scrapy将多个页面的数据收集到单个数据结构中

2024-01-11

我正在尝试从站点中抓取数据。数据被构造为多个对象，每个对象都有一组数据。例如，人员的姓名、年龄和职业。

我的问题是这些数据在网站中分为两个级别。
例如，第一页是姓名和年龄的列表，其中包含指向每个人的个人资料页面的链接。
他们的个人资料页面列出了他们的职业。

我已经有一个用 python 写的 scrapy 的蜘蛛，它可以从顶层收集数据并爬行多个分页。
但是，如何从内部页面收集数据，同时保持其链接到适当的对象？

目前，我的输出结构为 json

   {[name='name',age='age',occupation='occupation'],
   [name='name',age='age',occupation='occupation']} etc

parse函数可以这样跨页面吗？

这是你需要处理的方法。当项目具有所有属性时，您需要生成/返回项目一次

yield Request(page1,
              callback=self.page1_data)

def page1_data(self, response):
    hxs = HtmlXPathSelector(response)
    i = TestItem()
    i['name']='name'
    i['age']='age'
    url_profile_page = 'url to the profile page'

    yield Request(url_profile_page,
                  meta={'item':i},
    callback=self.profile_page)


def profile_page(self,response):
    hxs = HtmlXPathSelector(response)
    old_item=response.request.meta['item']
    # parse other fileds
    # assign them to old_item

    yield old_item

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

json

Scrapy

webcrawler

如何使用scrapy将多个页面的数据收集到单个数据结构中的相关文章

matplotlib 图中点的标签

所以这是一个关于已发布的解决方案的问题我试图在我拥有的 matplotlib 散点图中的点上放置一些数据标签我试图在这里模仿解决方案是否有与 MATLAB 的 datacursormode 等效的 matplotlib https s
从Django中具有外键关系的两个表中检索数据？ [复制]

这个问题在这里已经有答案了 This is my models py file from django db import models class Author models Model first name models CharFie
更好地相当于这个疯狂的嵌套 python for 循环

for a in map for b in map a for c in map b for d in map c for e in map d print a b c d e 上面的代码用于创建图中一定长度的所有路径 map a 表示从
矩形函数的数值傅里叶变换

本文的目的是通过一个众所周知的分析傅里叶变换示例来正确理解 Python 或 Matlab 上的数值傅里叶变换为此我选择矩形函数这里报告了它的解析表达式及其傅立叶变换https en wikipedia org wiki Rectan
打印包含字符串和其他 2 个变量的变量

var a 8 var b 3 var c hello my name is var a and var b bye print var c 当我运行程序时 var c 会像这样打印出来 hello my name is 8 and 3 b
Python 内置的 super() 是否违反了 DRY？

显然这是有原因的但我没有足够的经验来认识到这一点这是Python中给出的例子docs http docs python org 2 library functions html super class C B def method se
从 Powershell 脚本安装 Python

当以管理员身份从 PowerShell 命令行运行以下命令时可以在 Windows 11 上成功安装 Python c temp python 3 11 4 amd64 exe quiet InstallAllUsers 0 Instal
使用 Ajax.Request 将 JSON 从浏览器传递到 PHP 的最佳方法

您好我有一个 JSON 对象它是一个二维数组我需要使用 Ajax Request 将其传递给 PHP 我知道的唯一方法现在我使用js函数手动序列化我的数组并获取以下格式的数据 s 1 d 3 4等我的问题是有没有办法更直接有
使用 python/numpy 重塑数组

我想重塑以下数组 gt gt gt test array 11 12 13 14 21 22 23 24 31 32 33 34 41 42 43 44 为了得到 gt gt gt test2 array 11 12 21 22 13 14
使用 AsyncTask 传递值

我一直在努力解决这个问题但我已经到了不知道该怎么办的地步我想做的是使用一个类下载文件并将其解析为字符串然后将该字符串发送到另一个类来解析 JSON 内容所有部件都可以单独工作并且我已经单独测试了所有部件我只是不知道如何将值发送到
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
Python GTK+ 画布

我目前正在通过 PyGobject 学习 GTK 需要画布之类的东西我已经搜索了文档发现两个小部件似乎可以完成这项工作 GtkDrawingArea 和 GtkLayout 我需要一些基本函数如 fillrect 或 drawline
Spider 必须返回 Request、BaseItem、dict 或 None，已“设置”

我正在尝试从以下位置下载所有产品的图像我的蜘蛛看起来像 from shopclues items import ImgData import scrapy class multipleImages scrapy Spider name m
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
如何以正确的方式为独立的Python应用程序制作setup.py？

我读过几个类似的主题但还没有成功我觉得我错过或误解了一些基本的事情这就是我失败的原因我有一个用 python 编写的应用程序我想在标准 setup py 的帮助下进行部署由于功能复杂它由不同的 python 模块组成但单独
创建一个 JSON 对象以在 Spring Boot 测试中发布

我想编写基本测试来使用 JSON 负载在 users URL 上执行 POST 请求来创建用户我找不到如何将新对象转换为 JSON 到目前为止有这么多这显然是错误的但解释了目的 Test public void createUser
如何将 Django 中的权限添加到模型并使用 shell 进行测试

我在模型中添加了 Meta 类并同步了数据库然后在 shell 中创建了一个对象它返回 false 所以我真的无法理解错误在哪里或者缺少什么是否在其他文件中可能存在某种配置 class Employer User Employer in
如何在 Flask 中的视图函数/会话之间传递复杂对象

我正在编写一个 Web 应用程序当且仅当用户登录时该应用程序从第三方服务器接收大量数据这些数据被解析为自定义对象并存储在list 现在用户在应用程序中使用这些数据调用不同的视图例如发送不同的请求我不确定什么是最好的模式在视
如何在Python脚本中从youtube-dl中提取文件大小？

我是 python 编程新手我想在下载之前提取视频音频大小任何 YouTube 视频 gt gt gt from youtube dl import YoutubeDL gt gt gt url https www youtube c

随机推荐

具有图案和图像元素的 SVG 转换为 PNG 图像失败

我试图将 Raphael js 生成的 svg 转换为 PNG 图像好吧当 svg 没有图案和图像组件时我将 svg 转换为图像然后当我将这两个组件添加到 SVG 中时就会出现问题并且转换失败完整的小提琴是 here http
Ninject Kernel.Get 和构造函数注入之间的不同行为

我有什么 public interface IBla public class Bla1 IBla public class Bla IBla public class Consumer private readonly IBla arra
在 Dart 中使用“this”关键字是什么意思？

如果这听起来像是一个极其愚蠢的问题我很抱歉但它确实一直困扰着我什么是这个我看到了吗每当我看到 flutter 中的文档时我都会看到它被用于文档中的以下内容 this initialRoute this onGenerateRo
如何给UIButton的按钮文本添加下划线？

文本来自数据库我想将它用作按钮并在按钮的文本下划线我怎样才能做到这一点在 iOS 6 中 NS属性字符串用于修改文本您可以使用 NSMutableAttributedString 使用单个 UIButton 或 UILabel 进行
Internet Explorer 上使用大括号的 AngularJS 数据绑定问题

我在这里做错了什么我已经读过IE兼容性指南 http docs angularjs org guide ie但这没有提到使用标签进行数据绑定这在其他浏览器上工作正常但在 IE 包括 IE9 中失败 http jsfiddle net
elm 中的类型继承

我想要实现的是类型继承我的意思是我希望能够让函数返回子类型然后让函数返回超类型让我举一个例子假设我有一个主视图组件它返回一个 Html Msg view Model gt Html Msg view model div cl
Oracle 会淘汰 10gAS 转而采用 WebLogic 吗？

Oracle 购买了 BEA 及其 WebLogic 工具套件他们在自己的 10gAS 应用服务器中仍然有竞争产品两者都是Java EE http en wikipedia org wiki Java Platform Enterpri
如何以编程方式替换/更改图像按钮android

我的视图上有一个图像按钮我需要在用户交互后更改它我没有找到类似的东西myImageButton setDrawable这是我想要更改的按钮的 xml
如何使用 Gradle 创建发布签名的 apk 文件？

我想让我的 Gradle 构建使用 Gradle 创建一个发布签名的 apk 文件我不确定代码是否正确或者我在执行时是否缺少参数gradle build 这是我的一些代码build gradle build gradle kts file
全二叉树的叶节点数

Problem求一棵有 n 个节点的满二叉树的叶节点数我为上述问题编写了一个递归程序遍历树并在到达没有子节点的节点时增加叶节点的数量但由于树是一个完整的二叉树我认为这会让问题变得更容易但我不知道如何解决能否以紧凑的形式类似于公
如何确定我是否作为控制台应用程序运行？（Win32 上的德尔福）

我有一个通用单元可以将一些日志记录到 GExperts Debugger 和或 OutputDebugString 我将在控制台应用程序中使用它所以我希望它能够通过输出到标准输出writeln 主要可执行文件已经有 APPTYPE C
如何将XAMPP中的phpMyAdmin升级到最新版本？

如何在不影响数据库设置和文件的情况下将XAMPP中的phpMyAdmin升级到最新版本该网站将对您的目的有用 https www ostraining com blog coding update phpmyadmin https ww
如何强制 Apache 使用最新安装的 PHP 版本

我使用以下命令从 PHP 版本 5 5 9 1ubuntu4 17 升级到 PHP 5 6 23 1 deb sury org trusty 2 apt get y update add apt repository ppa ondrej
如何使用包内 Excel 文件第一行中指定的列名称？

谁能告诉我如何更改默认列名称 F1 F2 F3等将数据从 Excel 源导入到 SSIS 2005 中的 OLEDB 目标时示例我的 Excel 电子表格中的数据如下所示 Title ProvinceID DistrictID Con
调试 Windows 服务的更简单方法

有没有比通过 Windows 服务控制管理器启动服务然后将调试器附加到线程更简单的方法来逐步执行代码这有点麻烦我想知道是否有更直接的方法如果我想快速调试服务我只需添加一个Debugger Break 在那里当到达该线时它会将我带
如何使用ffmpeg的sws_scale()调整图片大小？

我想使用 ffmpeg 的 func gt sws scale 来调整图片大小有谁知道该怎么做吗有这个函数的源码吗首先你需要创建一个SwsContext 您只需执行一次 struct SwsContext resize resize
暂停新的 BackGroundWorker 直到前一个完成

我正在努力解决线程问题问题是当我迭代 foreach 循环时设置时this Document 应用程序执行登录这是由事件触发的需要几秒钟才能完成在里面worker RunWorkerCompleted方法我需要执行一些取决于当前
如何在 SQLAlchemy 列/外键混合中指定 PostgreSQL 架构？

现有的 PostgreSQL 数据库具有以不同模式组织的表以分割大型数据库既用于扩展又在服务器级别实现微调的安全性同样 declarative base 表描述被组织在包中的不同文件中每个模式一个文件 package init
类似 IOS 7 天气 APP 的过渡/动画

我想实现iOS天气应用程序如转换 ListView 点击列表项它会展开到详细视图或者捏合列表也会展开到详细视图左右滑动过渡请让我知道如何实施提前致谢 Here is 我在博客上找到的一些帖子 http www teehanlax
如何使用scrapy将多个页面的数据收集到单个数据结构中

我正在尝试从站点中抓取数据数据被构造为多个对象每个对象都有一组数据例如人员的姓名年龄和职业我的问题是这些数据在网站中分为两个级别例如第一页是姓名和年龄的列表其中包含指向每个人的个人资料页面的链接他们的个人资料页面列出了他

如何使用scrapy将多个页面的数据收集到单个数据结构中

如何使用scrapy将多个页面的数据收集到单个数据结构中 的相关文章

随机推荐

热门标签

如何使用scrapy将多个页面的数据收集到单个数据结构中的相关文章