Scrapy递归下载内容

2023-12-01

敲了好几次头之后，我终于来到这里了。

问题：我正在尝试下载每个 craiglist 帖子的内容。我所说的内容是指“发布正文”，例如手机的描述。自 iPhone 以来寻找新的旧手机已经令人兴奋不已。

该代码是一项很棒的工作迈克尔·赫尔曼.

我的蜘蛛班

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import *
from craig.items import CraiglistSampleItem

class MySpider(CrawlSpider):
    name = "craigs"
    allowed_domains = ["craigslist.org"]
    start_urls = ["http://minneapolis.craigslist.org/moa/"]

    rules = (Rule (SgmlLinkExtractor(allow=("index\d00\.html", ),restrict_xpaths=('//p[@class="nextpage"]',))
    , callback="parse_items", follow= True),
    )

    def parse_items(self,response):
        hxs = HtmlXPathSelector(response)
        titles = hxs.select("//span[@class='pl']")
        items = []
        for titles in titles:
            item = CraiglistSampleItem()
            item ["title"] = titles.select("a/text()").extract()
            item ["link"] = titles.select("a/@href").extract()
            items.append(item)
        return items

和 Item 类

from scrapy.item import Item, Field

class CraiglistSampleItem(Item):
    title = Field()
    link = Field()

由于代码将遍历许多链接，因此我想将每部手机的描述保存在单独的 csv 中，但 csv 中多一列也可以。

任何线索！

而不是退回物品parse_items你应该返回/产生 scrapy 的方法Request实例以便从项目页面获取描述，link and title你可以通过一个Item, and Item里面的meta字典：

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.http import Request
from scrapy.selector import *

from scrapy.item import Item, Field


class CraiglistSampleItem(Item):
    title = Field()
    link = Field()
    description = Field()


class MySpider(CrawlSpider):
    name = "craigs"
    allowed_domains = ["craigslist.org"]
    start_urls = ["http://minneapolis.craigslist.org/moa/"]

    rules = (Rule(SgmlLinkExtractor(allow=("index\d00\.html", ), restrict_xpaths=('//p[@class="nextpage"]',))
        , callback="parse_items", follow=True),
    )

    def parse_items(self, response):
        hxs = HtmlXPathSelector(response)

        titles = hxs.select("//span[@class='pl']")
        for title in titles:
            item = CraiglistSampleItem()
            item["title"] = title.select("a/text()").extract()[0]
            item["link"] = title.select("a/@href").extract()[0]

            url = "http://minneapolis.craigslist.org%s" % item["link"]
            yield Request(url=url, meta={'item': item}, callback=self.parse_item_page)

    def parse_item_page(self, response):
        hxs = HtmlXPathSelector(response)

        item = response.meta['item']
        item['description'] = hxs.select('//section[@id="postingbody"]/text()').extract()
        return item

运行它并查看附加内容description输出 csv 文件中的列。

希望有帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python27

webscraping

Scrapy

Scrapy递归下载内容的相关文章

Pycharm Python 控制台不打印输出

我有一个从 Pycharm python 控制台调用的函数但没有显示输出 In 2 def problem1 6 for i in range 1 101 2 print i end In 3 problem1 6 In 4 另一方面像
导入错误：没有名为 _ssl 的模块

带 Python 2 7 的 Ubuntu Maverick 我不知道如何解决以下导入错误 gt gt gt import ssl Traceback most recent call last File
如何打印没有类型的defaultdict变量？

在下面的代码中 from collections import defaultdict confusion proba dict defaultdict float for i in xrange 10 confusion proba di
Flask 和 uWSGI - 无法加载应用程序 0 (mountpoint='')（找不到可调用或导入错误）

当我尝试使用 uWSGI 启动 Flask 时出现以下错误我是这样开始的 gt cd gt root localhost uwsgi socket 127 0 0 1 6000 file path to folder run py ca
更改自动插入 tkinter 小部件的文本颜色

我有一个文本框小部件其中插入了三条消息一条是开始消息一条是结束消息一条是在单位被摧毁时发出警报的消息我希望开始和结束消息是黑色的但被毁坏的消息参见我在代码中评论的位置插入小部件时颜色为红色我不太确定如何去做这件事我看
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
安装后 Anaconda 提示损坏

我刚刚安装张量流GPU创建单独的后环境按照以下指示here https github com antoniosehk keras tensorflow windows installation 但是安装后当我关闭提示窗口并打开新航站楼弹出
如何使用装饰器禁用某些功能的中间件？

我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
在 NumPy 中获取 ndarray 的索引和值

我有一个 ndarrayA任意维数N 我想创建一个数组B元组数组或列表其中第一个N每个元组中的元素是索引最后一个元素是该索引的值A 例如 A array 1 2 3 4 5 6 Then B 0 0 1 0 1 2 0 2 3 1 0
Python：字符串不会转换为浮点数[重复]

这个问题在这里已经有答案了我几个小时前写了这个程序 while True print What would you like me to double line raw input gt if line done break else f
如何将 numpy.matrix 提高到非整数幂？

The 运算符为numpy matrix不支持非整数幂 gt gt gt m matrix 1 0 0 5 0 5 gt gt gt m 2 5 TypeError exponent must be an integer 我想要的是 oct
Python - 在窗口最小化或隐藏时使用 pywinauto 控制窗口

我正在尝试做的事情我正在尝试使用 pywinauto 在 python 中创建一个脚本以在后台自动安装 notepad 隐藏或最小化 notepad 只是一个示例因为我将编辑它以与其他软件一起使用 Problem 问题是我想在安装程序
Nuitka 未使用 nuitka --recurse-all hello.py [错误] 编译 exe

我正在尝试通过 nuitka 创建一个简单的 exe 这样我就可以在我的笔记本电脑上运行它而无需安装 Python 我在 Windows 10 上并使用 Anaconda Python 3 我输入 nuitka recurse all h
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
在python中，如何仅搜索所选子字符串之前的一个单词

给定文本文件中的长行列表我只想返回紧邻其前面的子字符串例如单词狗描述狗的单词例如假设有这些行包含狗 hotdog big dog is dogged dog spy with my dog brown dogs 在这种情况下期望
如何使用google colab在jupyter笔记本中显示GIF？

我正在使用 google colab 想嵌入一个 gif 有谁知道如何做到这一点我正在使用下面的代码它并没有在笔记本中为 gif 制作动画我希望笔记本是交互式的这样人们就可以看到代码的动画效果而无需运行它我发现很多方法在 Goo
使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

我有一个 Pandas 数据框它有两列一列进程参数列包含字符串另一列值列包含相应的浮点值我需要过滤出部分匹配列过程参数中的一组键的子数据帧并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce
Python：元类属性有时会覆盖类属性？

下面代码的结果让我感到困惑 class MyClass type property def a self return 1 class MyObject object metaclass MyClass a 2 print MyObject
改变字典的哈希函数

按照此question https stackoverflow com questions 37100390 towards understanding dictionaries 我们知道两个不同的字典 dict 1 and dict 2例
Python 分析：“‘select.poll’对象的‘poll’方法”是什么？

我已经使用 python 分析了我的 python 代码cProfile模块并得到以下结果 ncalls tottime percall cumtime percall filename lineno function 13937860 9

随机推荐

Java Math.pow() 舍入误差

我遇到了我怀疑是舍入错误的问题我有一根绳子 0 686357E 01 我正在尝试将其转换为双精度我已经能够使用将其拆分Pattern split 函数我正在捕获基数和指数值然而一旦我尝试将它们适当相乘我得到的结果是 0 06
滚动时，推送列中的 Bootstrap Affix 菜单与 Safari 中的主要内容重叠

这可能是 Bootstrap 本身的一个错误但我仍然有兴趣看看是否有人可以提出修复或至少提供一些帮助要直接跳到问题所在请在 Safari 中打开此 jsfiddle 并开始向下滚动页面 http jsfiddle net davere
PreferredStatusBarStyle var 在 iOS12 中不起作用？

Adding application statusBarStyle lightContent 我的 AppDelegate didFinishLaunchingWithOptions 方法未添加 override var preferred
从我的 VB.NET 2008 项目访问 MySQL 数据库

我用VB NET开发了一个项目在这个项目中我想使用驻留在我的 WEB 服务器中的 MySQL 中的数据我可以与本地主机的 MySQL 服务器通信但无法与 WEB 服务器通信在我的 CPanel 中我添加了主机远程数据库访问但我
Delphi Xpath XML 查询

我正在尝试找到的值在以下 XML 文件中使用XPath query
查找具有所有公共中介的节点

我正在创建一个我们匹配的系统orders to staff 从概念上讲一个order是对人做一些工作的请求并且staff是一个能够完成这项工作的人一个order可以有一个或多个requirements 即对谁可以做这项工作的限制以及
Ghostscript 灰度转换仍然包含颜色？

如果 pdf 确实包含颜色我需要将其转换为灰度为此我找到了一个脚本可以确定 pdf 是否已经处于灰度状态 convert source pdf colorspace RGB unique colors txt 2 gt dev nu
将 $_POST 与文本区域一起使用时出现问题

我在网站上有一个简单的联系表单有 2 个文本字段 1 个文本区域和 1 个隐藏字段由于某种原因除文本区域之外的所有字段都 POST 到 PHP 脚本我以前已经这样做过一千次了但从来没有遇到过这个问题这是我的 HTML
在没有 Office 365 订阅的情况下使用 Azure 多租户应用程序来访问用户日历信息

我们编写了一个服务应用程序该应用程序从组织租户的多个日历中读取 Office 365 日历信息并对条目进行一些分析为此我们使用 Office 365 REST API 我们有多个客户组织租户需要此功能因此我已按照以下步骤操
在大型数据库中如何优化数据库这个查询？

Query SELECT id FROM user tmp WHERE code 9s5xs1sy AND go NOT REGEXP http www xxxx example com aflam http xx example com
使用特定字符在 Python 中拆分字符串

我正在尝试按特定字符分割输入的文档我需要在和处将它们分开但我很难弄清楚这一点 def main for x in docread words x split for word in words doclist append word
如何使用GAE访问GCE上的mongodb

我已经在 GAE 上部署了我的演示应用程序并且与 mLab 一起正常工作但是当我尝试在 GCE MongoDB Google Click to Deploy 上部署 mongodb 时部署成功但我不知道如何设置 URI我的应用程序在
找不到我的实体框架数据库

我对代码优先实体框架数据库有点困惑我创建了一个新的 DbContext 和类将其存储在该上下文中如下所示 namespace MyProject Subproject Something public class MyItem pub
Android sqlite / BLOB 性能问题

自从我将数据从 ArrayList 移动到 Android 上的 sqlite 数据库后我的性能出现了严重下降没有打开的游标可能会导致这种情况因此我怀疑问题出在我存储在 BLOB 字段中的图像该应用程序创建Cards有一个字段卡位图
如何让 CMake 自动检测 CUDA_ARCHITECTURES 的值？

较新版本的 CMake 3 18 及更高版本了解 CUDA 代码编译目标的 CUDA 架构的选择目标有一个CUDA ARCHITECTURES属性设置后会生成适当的 gencode arch whatever code whateve
Java 安装程序 - 需要帮助[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心以获得指导首先您好感谢您花时间帮
使用Opencv提取图像的公共部分

我正在编写一个程序来查找图像之间的差异目前我正在使用 AKAZE 寻找特征因此我知道了这两张图像的共同点问题是这两张图片只有一部分是共同的如何从两幅图像中提取共同部分为了更好的解释我需要从第一张图像中提取公共部分然后从第二张
正则表达式以任意顺序匹配至少两个特殊字符

我必须对密码进行 jQuery 表单验证密码应至少包含两个特殊字符任意顺序我尝试过用于密码验证的正则表达式但它没有解决两个随机特殊字符可以按任意顺序出现的问题如何使用 JavaScript 正则表达式来做到这一点在不必要的情况下
asp.net mvc 中的 LINQ + EntityFunction

我有这样的代码使用EntityFramework Alpha3 来自nuget class Member Key public int Key get set public string Forename get set public st
Scrapy递归下载内容

敲了好几次头之后我终于来到这里了问题我正在尝试下载每个 craiglist 帖子的内容我所说的内容是指发布正文例如手机的描述自 iPhone 以来寻找新的旧手机已经令人兴奋不已该代码是一项很棒的工作迈克尔赫尔曼我的蜘蛛班

Scrapy递归下载内容

Scrapy递归下载内容 的相关文章

随机推荐

热门标签

Scrapy递归下载内容的相关文章