无需显式定义要抓取的每个字段即可抓取数据

2024-01-25

我想抓取一页数据（使用 Python Scrapy 库），而不必定义页面上的每个单独字段。相反，我想使用动态生成字段id元素的名称作为字段名称。

起初我认为最好的方法是建立一个收集所有数据的管道，并在收集完所有数据后将其输出。

然后我意识到我需要将数据传递到项目中的管道，但我无法定义项目，因为我不知道它需要哪些字段！

我解决这个问题的最佳方法是什么？

Update:

旧方法不适用于物品装载机 http://doc.scrapy.org/en/latest/topics/loaders.html并使事情变得不必要地复杂化。这是实现灵活项目的更好方法：

from scrapy.item import BaseItem
from scrapy.contrib.loader import ItemLoader

class FlexibleItem(dict, BaseItem):
    pass

if __name__ == '__main__':
    item = FlexibleItem()
    loader = ItemLoader(item)

    loader.add_value('foo', 'bar')
    loader.add_value('baz', 123)
    loader.add_value('baz', 'test')
    loader.add_value(None, {'abc': 'xyz', 'foo': 555})

    print loader.load_item()

    if 'meow' not in item:
        print "it's not a cat!"

Result:



{'foo': ['bar', 555], 'baz': [123, 'test'], 'abc': ['xyz']}
it's not a cat!

旧的解决方案：

好的，我已经找到解决方案了。这有点“黑客”，但它有效。

Scrapy Item 将字段名称存储在名为的字典中fields。当向项目添加数据时，它会检查该字段是否存在，如果不存在，则会抛出错误：

def __setitem__(self, key, value):
    if key in self.fields:
        self._values[key] = value
    else:
        raise KeyError("%s does not support field: %s" %\
              (self.__class__.__name__, key))

你能做的就是覆盖这个__setitem__函数不那么严格：

class FlexItem(Item):
    def __setitem__(self, key, value):
        if key not in self.fields:
            self.fields[key] = Field()

        self._values[key] = value

就这样吧。

现在，当您向项目添加数据时，如果该项目没有定义该字段，则会添加该字段，然后正常添加数据。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Scrapy

无需显式定义要抓取的每个字段即可抓取数据的相关文章

在 python 程序中合并第三方库的最佳实践是什么？

下午好我正在为我的工作编写一个中小型Python程序该任务需要我使用 Excel 库xlwt and xlrd 以及一个用于查询 Oracle 数据库的库称为CX Oracle 我正在通过版本控制系统即CVS 开发该项目我想知道围
Django 管理员在模型编辑时间歇性返回 404

我们使用 Django Admin 来维护导出到我们的一些站点的一些数据有时当单击标准更改列表视图来获取模型编辑表单而不是路由到正确的页面时我们会得到 Django 404 页面模板它是偶尔发生的我们可以通过重新加载三次来重现它
OpenCV Python cv2.mixChannels()

我试图将其从 C 转换为 Python 但它给出了不同的色调结果 In C Transform it to HSV cvtColor src hsv CV BGR2HSV Use only the Hue value hue create
通过最小元素比较对 5 个元素进行排序

我必须在 python 中使用元素之间的最小比较次数来建模对 5 个元素的列表进行排序的执行计划除此之外复杂性是无关紧要的结果是一个对的列表表示在另一时间对列表进行排序所需的比较我知道有一种算法可以通过 7 次比较总是在元素之间
使用 matplotlib 绘制时间序列数据并仅在年初显示年份

rcParams date autoformatter month b n Y 我正在使用 matpltolib 来绘制时间序列如果我按上述方式设置 rcParams 则生成的图会在每个刻度处标记月份名称和年份我怎样才能将其设置为仅在每
Python - StatsModels、OLS 置信区间

在 Statsmodels 中我可以使用以下方法拟合我的模型 import statsmodels api as sm X np array 22000 13400 47600 7400 12000 32000 28000 31000 6
从字符串中删除识别的日期

作为输入我有几个包含不同格式日期的字符串例如彼得在16 45 我的生日是1990年7月8日 On 7 月 11 日星期六我会回家 I use dateutil parser parse识别字符串中的日期在下一步中我想从字符串中删除
使用 on_bad_lines 将 pandas.read_csv 中的无效行写入文件

我有一个 CSV 文件我正在使用 Python 来解析该文件我发现文件中的某些行具有不同的列数 001 Snow Jon 19801201 002 Crom Jake 19920103 003 Wise Frank 19880303 l
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
安装 scrapy 0.22 时出错（在 Ubuntu 12.04 上）：“gcc”失败，退出状态为 1

尝试使用 pip 从命令行安装 Scrapy 时 sudo pip install scrapy我收到以下错误 error command gcc failed with exit status 1 查看错误输出中的几行我发现在尝试安装
如何在Python中获取葡萄牙语字符？

我正在研究葡萄牙语角色看起来很奇怪我怎样才能解决这个问题代码 import feedparser import random Vou definir os feeds feeds conf feedurl http pplware s
BeautifulSoup 中的嵌套标签 - Python

我在网站和 stackoverflow 上查看了许多示例但找不到解决我的问题的通用解决方案我正在处理一个非常混乱的网站我想抓取一些数据标记看起来像这样 table tbody tr tr tr td td td table tr t
Python 的“zip”内置函数的 Ruby 等价物是什么？

Ruby 是否有与 Python 内置函数等效的东西zip功能如果不是做同样事情的简洁方法是什么一些背景信息当我试图找到一种干净的方法来进行涉及两个数组的检查时出现了这个问题如果我有zip 我可以写这样的东西 zip a b a
IO 密集型任务中的 Python 多线程

建议仅在 IO 密集型任务中使用 Python 多线程因为 Python 有一个全局解释器锁 GIL 只允许一个线程持有 Python 解释器的控制权然而多线程对于 IO 密集型操作有意义吗 https stackoverflow c
Jupyter Notebook 内核一直很忙

我已经安装了 anaconda 并且 python 在 Spyder IPython 等中工作正常但是我无法运行 python 笔记本内核被创建它也连接但它始终显示黑圈忙碌符号防火墙或防病毒软件没有问题我尝试过禁用两者我也无法
如何在Python中对类别进行加权随机抽样

给定一个元组列表其中每个元组都包含一个概率和一个项目我想根据其概率对项目进行采样例如给出列表 3 a 4 b 3 c 我想在 40 的时间内对 b 进行采样在 python 中执行此操作的规范方法是什么我查看了 random 模
向 Altair 图表添加背景实心填充

I like Altair a lot for making graphs in Python As a tribute I wanted to regenerate the Economist graph s in Mistakes we
如何在seaborn displot中使用hist_kws

我想在同一图中用不同的颜色绘制直方图和 kde 线我想为直方图设置绿色为 kde 线设置蓝色我设法弄清楚使用 line kws 来更改 kde 线条颜色但 hist kws 不适用于显示我尝试过使用 histplot 但我无法为
如何在 Python 中追加到 JSON 文件？

我有一个 JSON 文件其中包含 67790 1 kwh 319 4 现在我创建一个字典a dict我需要将其附加到 JSON 文件中我尝试了这段代码 with open DATA FILENAME a as f json obj js
Python：如何将列表列表的元素转换为无向图？

我有一个程序可以检索 PubMed 出版物列表并希望构建一个共同作者图这意味着对于每篇文章我想将每个作者如果尚未存在添加为顶点并添加无向边或增加每个合著者之间的权重我设法编写了第一个程序该程序检索每个出版物的作者列表并

随机推荐

Android 中的聊天应用程序，以便发送者和接收者消息应该位于不同的一侧

protected void onPostExecute ArrayList
如何使用资产管道在邮件程序中拥有样式表的绝对路径？

我的邮件模板中的视图助手为我提供了样式表和图像的相对 URL 当然例如如果我在 Gmail 中查看电子邮件则此方法将不起作用 In apps views layouts mailer html erb 呈现为 a href http
调试时 GCC 中的自定义 C++ 分配器太慢。有解决办法吗？

我正在努力解决自定义分配器的性能问题我的问题是关于调试版本通常情况下如果只有一点点下降我并不介意但目前我正在以 4fps 播放某些内容而如果没有自定义分配器则播放速度为 60fps 并且可能会更快这使得软件开发变得更加困难
在字符串末尾增加整数

我有一个很强的芝加哥伊利诺伊州我想在它的末尾添加一个所以它将是芝加哥伊利诺伊州注意它也可能是芝加哥伊利诺伊州 10 我希望它去芝加哥伊利诺伊州 11 所以我不能做 substr 有什么建议的解决方案吗一个非常简单的问题
Python：pyswip 输出返回 Atom 和 Functor

基于一些较旧的post https stackoverflow com questions 63890053 prolog define logical operator in prolog as placeholder for other
RabbitMQ Consumer总是直接关闭（C#）

目前我正在学习如何使用 RabbitMQ 发送作品但接收不起作用这是我的代码 var factory new ConnectionFactory HostName hostName using var connection factor
带有接口的instanceof [重复]

这个问题在这里已经有答案了如果我尝试将instanceof运算符与错误的类一起使用我会收到编译错误动物无法转换为字符串但使用接口时我不会收到编译时错误例如在第 10 行中我收到编译错误因为 Animal 不是 String
React Native父子通信并返回值

我是反应本机环境的初学者我想了解本机反应中的亲子沟通家长将一个数字传递给孩子例如家长将 2 传递给孩子子级将有一个处理函数将相同的数字乘以 2 次并将结果返回给父级作为示例 2 2 并返回父级将调用子函数并查看输出是否正确并
如何修复我的生成器角度项目以便 grunt 测试有效？

我正在学习本教程 http www sitepoint com kickstart your angularjs development with yeoman grunt and bower http www sitepoint com
Python 和 Pylance VS Code 扩展之间有什么区别？

我刚刚从老朋友 Sublime 转向 VSCode 我真的很喜欢它的工作方式和它所具有的功能我是一名 Python 开发新手我发现了 VSCode 的两个流行的 python 扩展 Python 和 PyLance 我的问题是 Pyth
FileSystemWatcher OnChanged 事件需要重新加入 UI 线程

如何在 FileSystemWatcher 中获取 OnChanged 事件以便在 OnChanged 事件完成后调用 UI 线程上的方法或者只是为了了解知识如何让 OnChanged 事件完全在 UI 线程上运行如果你想File
Java HttpSession

java servlet中的HttpSession是在之后才创建的吗 HttpSession s request getSession 在我的代码中我没有这样写但是当我使用时if request getSession false null
Ufw 防火墙阻止 kubernetes（使用 calico）

我正在尝试在我的服务器 Debian 10 上安装 kubernetes 集群在我的服务器上我使用 ufw 作为防火墙在创建集群之前我在 ufw 上允许了这些端口 179 tcp 4789 udp 5473 tcp 443 tcp
Apache的Mesos和Google的Kubernetes有什么区别

Apache的Mesos和Google的Kubernetes到底有什么区别据我了解两者都是服务器集群管理软件任何人都可以详细说明主要区别在哪里什么时候会首选哪个框架你为什么要使用Kubernetes 位于 Mesosphere 之
设置已发布的 npm 项目的“根”

我正在发布一个名为的 npm 包foo到 npm 注册表我使用compile to js 语言编写了该包为了理智起见我将编译的输出放入dist 项目目录的文件夹我的package json将入口点列出为dist entry js n
Azure Web Apps 是否在多个实例之间共享磁盘？

根据大卫埃博 David Ebbo 在Azure 运行时环境 https github com projectkudu kudu wiki Azure runtime environment file system本文中当您启动 2 个
为什么“du”的输出通常与“du -b”如此不同

为什么输出是du通常与du b b是简写 apparent size block size 1 仅使用 apparent size大多数时候给我相同的结果但是 block size 1似乎可以解决问题我想知道输出是否正确哪些数字是我想
docker compose 会自动创建端口映射吗？

我在 Visual Studio 2019 中创建了一个简单的 asp net core 应用程序并添加了 docker 支持 Dockerfile dockerignore 和 docker compose 文件均已创建在命令提示符中
数据库设计：跟踪每个用户的大量属性。如此之多，我可能会用完列（行存储空间）

对于我所关心的问题我希望得到一些意见我的数据库中有一个 User 表其中包含您期望的基本内容例如用户名密码等该应用程序要求我跟踪每个用户的大量属性如此之多我可能会用完列行存储空间我很想添加一个包含 UserID Prop
无需显式定义要抓取的每个字段即可抓取数据

我想抓取一页数据使用 Python Scrapy 库而不必定义页面上的每个单独字段相反我想使用动态生成字段id元素的名称作为字段名称起初我认为最好的方法是建立一个收集所有数据的管道并在收集完所有数据后将其输出然后我意识到我需要

热门标签