Scrapy文件下载如何使用自定义文件名

2024-05-02

For my scrapy http://doc.scrapy.org/index.html我目前正在使用的项目文件管道 https://doc.scrapy.org/en/latest/topics/media-pipeline.html#scrapy.pipelines.files.FilesPipeline。下载的文件以其 URL 的 SHA1 哈希值作为文件名进行存储。

[(True,
  {'checksum': '2b00042f7481c7b056c4b410d28f33cf',
   'path': 'full/0a79c461a4062ac383dc4fade7bc09f1384a3910.jpg',
   'url': 'http://www.example.com/files/product1.pdf'}),
 (False,
  Failure(...))]

如何使用自定义文件名来存储文件？

在上面的例子中，我希望文件名是“产品1_0a79c461a4062ac383dc4fade7bc09f1384a3910.pdf”所以我保持唯一性但使文件名可见。

作为起点，我探索了pipelines.py我的项目没有取得太大成功。

import scrapy
from scrapy.pipelines.images import FilesPipeline
from scrapy.exceptions import DropItem

class MyFilesPipeline(FilesPipeline):

    def file_path(self, request, response=None, info=None):
        return request.meta.get('filename','')

    def get_media_requests(self, item, info):
        file_url = item['file_url']
        meta = {'filename': item['name']}
        yield Request(url=file_url, meta=meta)

将此参数包含在我的settings.py

ITEM_PIPELINES = {
    #'scrapy.pipelines.files.FilesPipeline': 300
    'io_spider.pipelines.MyFilesPipeline': 200
}

A 类似的问题 https://stackoverflow.com/questions/6194041/scrapy-image-download-how-to-use-custom-filename/22263951已被询问，但它确实针对图像而不是文件。

任何帮助将不胜感激。

file_path应该返回您的文件的路径。在你的代码中，file_path回报item['name']这将是你的文件的路径。请注意，默认情况下file_path 计算 SHA1 哈希值 https://github.com/scrapy/scrapy/blob/master/scrapy/pipelines/files.py#L464。所以你的方法应该是这样的：

def file_path(self, request, response=None, info=None):
    original_path = super(MyFilesPipeline, self).file_path(request, response=None, info=None)
    sha1_and_extension = original_path.split('/')[1] # delete 'full/' from the path
    return request.meta.get('filename','') + "_" + sha1_and_extension

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Scrapy文件下载如何使用自定义文件名的相关文章

Django REST序列化器：创建对象而不保存

我已经开始使用 Django REST 框架我想做的是使用一些 JSON 发布请求从中创建一个 Django 模型对象然后使用该对象而不保存它我的 Django 模型称为 SearchRequest 我所拥有的是 api view
如何在python中读取多个文件中的文本

我的文件夹中有许多文本文件大约有 3000 个文件每个文件中第 193 行是唯一包含重要信息的行我如何使用 python 将所有这些文件读入 1 个文本文件 os 模块中有一个名为 list dir 的函数该函数返回给定目录中所有文
如何生成给定范围内的回文数列表？

假设范围是 1 X 120 这是我尝试过的 gt gt gt def isPalindrome s check if a number is a Palindrome s str s return s s 1 gt gt gt def ge
如何收集列表、字典等中重复计算的结果（或制作修改每个元素的列表的副本）？

There are a great many existing Q A on Stack Overflow on this general theme but they are all either poor quality typical
如何打印没有类型的defaultdict变量？

在下面的代码中 from collections import defaultdict confusion proba dict defaultdict float for i in xrange 10 confusion proba di
如何使用 Scrapy 从网站获取所有纯文本？

我希望在 HTML 呈现后可以从网站上看到所有文本我正在使用 Scrapy 框架使用 Python 工作和xpath body text 我能够获取它但是带有 HTML 标签而且我只想要文本有什么解决办法吗最简单的选择是ext
为 pandas 数据透视表中的每个值列定义 aggfunc

试图生成具有多个值列的数据透视表我知道我可以使用 aggfunc 按照我想要的方式聚合值但是如果我不想对两列求和或求平均值而是想要一列的总和同时求另一列的平均值该怎么办那么使用 pandas 可以做到这一点吗 df pd D
keras加载模型错误尝试将包含17层的权重文件加载到0层的模型中

我目前正在使用 keras 开发 vgg16 模型我用我的一些图层微调 vgg 模型拟合我的模型训练后我保存我的模型model save name h5 可以毫无问题地保存但是当我尝试使用以下命令重新加载模型时load mod
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
在pyyaml中表示具有相同基类的不同类的实例

我有一些单元测试集希望将每个测试运行的结果存储为 YAML 文件以供进一步分析 YAML 格式的转储数据在几个方面满足我的需求但测试属于不同的套装结果有不同的父类这是我所拥有的示例 gt gt gt rz shorthand for
Abaqus 将曲面转化为集合

我一直试图在模型中找到两个表面的中心参见照片但未能成功它们是元素表面面查询中没有选项可以查找元素表面的中心只能查找元素集的中心找到节点集的中心也很好但是我的节点集没有出现在工具 gt 查询 gt 质量属性选项中而且我找不到
Geopandas 设置几何图形：MultiPolygon“等于 len 键和值”的 ValueError

我有 2 个带有几何列的地理数据框我将一些几何图形从 1 个复制到另一个这对于多边形效果很好但对于任何有效多多边形都会返回 ValueError 请指教如何解决这个问题我不知道是否如何为什么应该更改 MultiPolygon
如何将 numpy.matrix 提高到非整数幂？

The 运算符为numpy matrix不支持非整数幂 gt gt gt m matrix 1 0 0 5 0 5 gt gt gt m 2 5 TypeError exponent must be an integer 我想要的是 oct
循环中断打破tqdm

下面的简单代码使用tqdm https github com tqdm tqdm在循环迭代时显示进度条 import tqdm for f in tqdm tqdm range 100000000 if f gt 100000000 4 b
在Python中重置生成器对象

我有一个由多个yield 返回的生成器对象准备调用该生成器是相当耗时的操作这就是为什么我想多次重复使用生成器 y FunctionWithYield for x in y print x here must be something t
设置 torch.gather(...) 调用的结果

我有一个形状为 n x m 的 2D pytorch 张量我想使用索引列表来索引第二个维度可以使用 torch gather 完成然后然后还设置新值到索引的结果 Example data torch tensor 0 1 2 3 4
在 Pandas DataFrame Python 中添加新列[重复]

这个问题在这里已经有答案了例如我在 Pandas 中有数据框 Col1 Col2 A 1 B 2 C 3 现在如果我想再添加一个名为 Col3 的列并且该值基于 Col2 式中如果Col2 gt 1 则Col3为0 否则为1 所以
在 Python 类中动态定义实例字段

我是 Python 新手主要从事 Java 编程我目前正在思考Python中的类是如何实例化的我明白那个 init 就像Java中的构造函数然而有时 python 类没有 init 方法在这种情况下我假设有一个默认构造函数就像
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql
改变字典的哈希函数

按照此question https stackoverflow com questions 37100390 towards understanding dictionaries 我们知道两个不同的字典 dict 1 and dict 2例

随机推荐

带有无序列表的 Flexbox

我正在尝试学习 Flexbox 我真的很喜欢它我正在尝试玩动态宽度当我这样做时div它有效如果我尝试这样做li 它也不起作用我的代码已上线codepen http codepen io jrock2004 pen pjvZJd d
如何展开和折叠列表视图中的项目

我对安卓还很陌生我想实现一个列表视图它包含一些列表项当单击它们时它们应该展开以显示更多信息但我找不到办法做到这一点这是我的activity main xml
jtree 编程式多选

是否能够以编程方式选择 JTree 中的多个树节点我已经设置了多选模式tree getSelectionModel setSelectionMode TreeSelectionModel DISCONTIGUOUS TREE SELECT
Vue.js 严格模式下不允许对一个属性进行多个定义

再会我们正在使用 Vuejs Vuex vue router 构建我们的应用程序https github com vuejs vue hackernews 2 0 https github com vuejs vue hackernews
通过变量引用工作簿和工作表

引用不同工作簿的工作表的正确语法是什么以下代码在最后一行抛出错误谢谢 Instantiate Workbook variables Dim mWB As Workbook master workbook Instantiate Work
我无法从指向派生类的指针和指向基类的指针的指针进行分配？ [复制]

这个问题在这里已经有答案了可能的重复派生到基础之间的转换 https stackoverflow com questions 8026040 conversion between derived to base 在主要使用 Pyth
OpenRasta - Scott Littlewoods 基本身份验证工作示例

我正在测试使用 OpenRasta 作为 ASP NET MVC 的可行替代方案的可行性但是我遇到了有关身份验证的绊脚石让我明确一点开放式摘要身份验证不是一个选项在此刻我读到 Scott Littlewood 为 OpenRas
使用 Hadoop 映射两个数据集

假设我有两个键值数据集数据集A和B 我们称它们为数据集A和B 我想用 B 组的数据更新 A 组中的所有数据其中两者在键上匹配因为我要处理如此大量的数据所以我使用 Hadoop 进行 MapReduce 我担心的是为了在 A 和 B
将数值和分类数据混合到具有密集层的 keras 序列模型中

我在 Pandas 数据框中有一个训练集我将此数据框传递到model fit with df values 以下是有关 df 的一些信息 df values shape 981 5 df values 0 array 163 0 6 83
查询 ssisdb 以查找包的名称

我正在查询 ssis 目录以找出目录中所有包的名称 Folder1项目中只有6个包但查询却给出了9条记录 1 SELECT P NAME FROM SSISDB internal projects PRJ INNER JOIN SSISD
找不到方法的私有访问器

在 Visual Studio 2010 下使用上下文菜单生成新的单元测试时右键单击方法名称 gt 生成单元测试我收到此错误 Private Accessor for methodName is not found Please reb
当请求太大时，Nginx（我认为）会以错误的权限保存文件

所以我对托管和 Linux 等都是完全陌生的所以如果我说错了请原谅我我还在学习我正在使用 Django 创建一个小型个人网站我想把它放到网上看看是否一切正常我从 linode 买了一台便宜的服务器并使用 Digital Oc
Html Agility Pack 无法使用 xpath 找到列表选项

这与我之前的问题 https stackoverflow com questions 6127769 webdriver can find element using xpath html agility pack cannot 但似乎我还
改造 POST java.io.IOException：由 java.io.EOFException 引起的连接上的流意外结束：\n 未找到：

我已经解决了与此相关的所有问题但尚未找到适合我的解决方案我在用着retrofit 2 8 1 and OkHttp 4 5 0 我的服务界面如下所示 public interface MlApiService POST Multipar
在java中读取文本文件[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案当每行都包含整数字符串和双精度数时如何在 Java 中读取 txt 文件并将每一行放入数组中每行都有不同数量的单词数字 Try
如何隐藏实际的下载文件夹位置

我想隐藏下载文件夹位置以便用户下载文件时看不到该位置我认为这可以使用 htaccess 文件来完成但我该如何做到这一点或者如何使用 PHP 来完成此操作我在 PHP 中是这样做的
全屏 Exoplayer

我尝试用以下内容显示节目视频 mp4 外播放器 in 回收视图 and 浏览器我展示了具有自定义布局的视频控制器到目前为止一切都很好现在尝试像其他视频播放器一样全屏播放视频但在中找不到好方法外播放器 doc 谁能帮我 ExoPla
iphone - UIScrollview - 带有慢速动画的scrollRectToVisible

我正在使用 UIScrollView 并使用scrollRectToVisible animated 这对我来说效果很好但我想慢慢滚动到一个位置以便用户可以注意到效果是否可以我正在尝试以下代码但没有成功 UIView beginA
使用 NSPredicate 进行过滤，用于数组内字典内数组的数组计数

我有如下格式的数组 xyz Array with different values many more keys same as above dictionary many more dictionaries 在这里看我有字典的主数组其
Scrapy文件下载如何使用自定义文件名

For my scrapy http doc scrapy org index html我目前正在使用的项目文件管道 https doc scrapy org en latest topics media pipeline html scr

Scrapy文件下载如何使用自定义文件名

Scrapy文件下载如何使用自定义文件名 的相关文章

随机推荐

热门标签

Scrapy文件下载如何使用自定义文件名的相关文章