python中通过爬取子URL来下载文件

2024-01-11

我正在尝试从大量网络链接下载文档（主要是pdf格式），如下所示：

https://projects.worldbank.org/en/projects-operations/document-detail/P167897?type=projects https://projects.worldbank.org/en/projects-operations/document-detail/P167897?type=projects

https://projects.worldbank.org/en/projects-operations/document-detail/P173997?type=projects https://projects.worldbank.org/en/projects-operations/document-detail/P173997?type=projects

https://projects.worldbank.org/en/projects-operations/document-detail/P166309?type=projects https://projects.worldbank.org/en/projects-operations/document-detail/P166309?type=projects

但是，无法从这些链接直接访问 pdf 文件。需要单击子 URL 才能访问 pdf。有什么方法可以抓取子 URL 并从中下载所有相关文件吗？我正在尝试使用以下代码，但到目前为止，专门针对此处列出的这些 URL 尚未取得任何成功。

如果您需要任何进一步的说明，请告诉我。我很乐意这样做。谢谢。

from simplified_scrapy import Spider, SimplifiedDoc, SimplifiedMain, utils

class MySpider(Spider):
    name = 'download_pdf'
    allowed_domains = ["www.worldbank.org"]
    start_urls = [
        "https://projects.worldbank.org/en/projects-operations/document-detail/P167897?type=projects",
        "https://projects.worldbank.org/en/projects-operations/document-detail/P173997?type=projects",
        "https://projects.worldbank.org/en/projects-operations/document-detail/P166309?type=projects"
    ]  # Entry page

    def afterResponse(self, response, url, error=None, extra=None):
        if not extra:
            print ("The version of library simplified_scrapy is too old, please update.")
            SimplifiedMain.setRunFlag(False)
            return
        try:
            path = './pdfs'
            # create folder start
            srcUrl = extra.get('srcUrl')
            if srcUrl:
                index = srcUrl.find('year/')
                year = ''
                if index > 0:
                    year = srcUrl[index + 5:]
                    index = year.find('?')
                    if index>0:
                        path = path + year[:index]
                        utils.createDir(path)
            # create folder end

            path = path + url[url.rindex('/'):]
            index = path.find('?')
            if index > 0: path = path[:index]
            flag = utils.saveResponseAsFile(response, path, fileType="pdf")
            if flag:
                return None
            else:  # If it's not a pdf, leave it to the frame
                return Spider.afterResponse(self, response, url, error, extra)
        except Exception as err:
            print(err)

    def extract(self, url, html, models, modelNames):
        doc = SimplifiedDoc(html)
        lst = doc.selects('div.list >a').contains("documents/", attr="href")
        if not lst:
            lst = doc.selects('div.hidden-md hidden-lg >a')
        urls = []
        for a in lst:
            a["url"] = utils.absoluteUrl(url.url, a["href"])
            # Set root url start
            a["srcUrl"] = url.get('srcUrl')
            if not a['srcUrl']:
                a["srcUrl"] = url.url
            # Set root url end
            urls.append(a)

        return {"Urls": urls}

    # Download again by resetting the URL. Called when you want to download again.
    def resetUrl(self):
        Spider.clearUrl(self)
        Spider.resetUrlsTest(self)

SimplifiedMain.startThread(MySpider())  # Start download

有一个 API 端点，其中包含您在网站上看到的整个响应以及...文档的 URLpdf. :D

因此，您可以查询 API，获取 URL，最后获取文档。

就是这样：

import requests

pids = ["P167897", "P173997", "P166309"]

for pid in pids:
    end_point = f"https://search.worldbank.org/api/v2/wds?" \
                f"format=json&includepublicdocs=1&" \
                f"fl=docna,lang,docty,repnb,docdt,doc_authr,available_in&" \
                f"os=0&rows=20&proid={pid}&apilang=en"
    documents = requests.get(end_point).json()["documents"]
    for document_data in documents.values():
        try:
            pdf_url = document_data["pdfurl"]
            print(f"Fetching: {pdf_url}")
            with open(pdf_url.rsplit("/")[-1], "wb") as pdf:
                pdf.write(requests.get(pdf_url).content)
        except KeyError:
            continue

输出：（完全下载的.pdf 文件）

Fetching: http://documents.worldbank.org/curated/en/106981614570591392/pdf/Official-Documents-Grant-Agreement-for-Additional-Financing-Grant-TF0B4694.pdf
Fetching: http://documents.worldbank.org/curated/en/331341614570579132/pdf/Official-Documents-First-Restatement-to-the-Disbursement-Letter-for-Grant-D6810-SL-and-for-Additional-Financing-Grant-TF0B4694.pdf
Fetching: http://documents.worldbank.org/curated/en/387211614570564353/pdf/Official-Documents-Amendment-to-the-Financing-Agreement-for-Grant-D6810-SL.pdf
Fetching: http://documents.worldbank.org/curated/en/799541612993594209/pdf/Sierra-Leone-AFRICA-WEST-P167897-Sierra-Leone-Free-Education-Project-Procurement-Plan.pdf
Fetching: http://documents.worldbank.org/curated/en/310641612199201329/pdf/Disclosable-Version-of-the-ISR-Sierra-Leone-Free-Education-Project-P167897-Sequence-No-02.pdf

and more ...

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python中通过爬取子URL来下载文件的相关文章

将大型 Twitter JSON 数据 (7GB+) 加载到 Python 中

我已经通过 AWS 设置了一个公共流来收集推文现在想做一些初步分析我的所有数据都存储在 S3 存储桶中 5mb 文件我下载了所有内容并将所有文件合并为一个每条推文都按照 Twitter 规范存储为标准 JSON 对象基本上合并的
pandas 数据框列表的列表列表

我有一个列表的列表最外层列表的长度为 20 单独的类别中间列表的长度可变时间戳列表内部列表的长度为 5 分割每个时间戳例如 sTimestamps 0 5 Tue Feb 7 10 06 30 2017 Tue Feb 7 10
在 Pandas 数据框中显示对图

我试图通过从 pandas 数据框中的 scatter matrix 创建来显示一对图这就是创建配对图的方式 Create dataframe from data in X train Label the columns using th
避免 Python 3 的多处理队列中的竞争条件

我正在尝试找到大约 61 亿自定义物品的最大重量并且我想通过并行处理来完成此操作对于我的特定应用程序有更好的算法不需要我迭代超过 61 亿个项目但解释它们的教科书超出了我的能力范围我的老板希望在 4 天内完成此任务我认为我公
为什么我必须在 pybson (=bson, GitHub:py-bson) 之后安装 pymongo 才能成功导入 pybson？

编辑将问题放在网上很长时间后我注意到这是一个衍生产品无法使用 pymongo 2 2 连接到 MongoDB 2 0 5 数据库 https stackoverflow com questions 10603754 cant conne
将 pandas DataFrame 中的数字转换为特定字符串格式

我需要运行一个可以通过循环完成的任务但我想有一种更有效更漂亮的方法来做到这一点我有一个DataFrame它有一个整数列我想将其转换为 4 位字符串表示形式也就是说 3 应转换为 0003 234 应转换为 0234 我正在寻找一种
Python3.5 BeautifulSoup4从div中的'p'获取文本

我试图从 div 类 caselawcontent searchable content 中提取所有文本此代码仅打印 HTML 不打印网页中的文本我缺少什么来获取文本以下链接位于 finteredcasesdoc text 文件中 h
编程式 Google 登录/注销用户 1，然后登录用户 2 (Python)

我正在开展一个 DIY 项目为我的家庭中的多个成员检索 Google 位置历史记录根据 StackOverflow 成员的指示 t m 亚当 https stackoverflow com users 7811673 t m adam
导入错误 - 发生了什么？

Python 导入再次我有这个文件结构 test start py from scripts import main scripts init py empty main py from import install install p
为什么 enumerate、zip、range 类型不属于 types.GeneratorType？

Python 3 引入了类似生成器的对象在调用时返回range and zip 返回的对象就像一个生成器可以迭代一次但不能很好地打印就像enumerate 返回参数然而我很困惑地发现它们是不同的对象类型并且不属于types G
scrapyd-client 命令未找到

我刚刚在 virtualenv 中安装了 scrapyd client 1 1 0 并成功运行命令 scrapyd deploy 但是当我运行 scrapyd client 时终端显示命令未找到 scrapyd client 根据自述文
无法在我的抓取工具中设置超时选项以防止无限循环

我已经使用 IE 在 vba 中编写了一个脚本在其搜索框中的网页中启动搜索通过点击搜索按钮根据搜索填充结果网页加载它是searchbox几秒钟后它就会打开但是我的下面的脚本可以处理这个障碍并以正确的方式执行搜索现在我有一个稍微
使用 VBA 的下拉菜单

我需要使用 VBA 从下拉菜单中选择特定选项我怎样才能做到这一点链接到我们试图从中提取的网页 IE document getElementsByName down count click 我尝试过的代码 Full Module Priv
循环列表的值[重复]

这个问题在这里已经有答案了我是编码新手正在尝试编写一个简单的代码该代码将采用一个列表例如 1 2 3 并循环元素 n 次所以如果n 1 我应该得到A 3 1 2 如果n 2 我应该得到A 2 3 1 我写的代码是 n 1 j 0
为什么在“ except”块之后使用命名异常会得到“ NameError”（或“ UnboundLocalError”）？

此示例代码在 2 x 中运行 exc None try raise Exception except Exception as exc pass print exc 但在 3 x 中我收到一个错误 NameError name exc is
无法使用 beautifulsoup 模块 python 从 HTML 检索温度值

我正在使用 BeautifulSoup4 来解析此 HTML 查看源代码 https weather com en IN weather today l 17 39 78 49 https weather com en IN weather
如何将 AWS Kinesis Video Stream GetMedia API 输出解码为 mp3/wav？

我现在使用 GetMedia API 通过 AWS Connect 服务将数据提取到 Kinesis Video Stream KVS 我能够提取Payload但如何将此输出转换为 mp3 wav 我想将此输出提取到 AWS Transcr
pandas 在单元格中缩写字典

我有一个相当复杂的嵌套字典它使用 pandas 很好地打印为 html 但是有一个字典作为打印在单元格中的值之一如下所示 pd set option display max colwidth 1 已设置所以这不应该是问题这是产生问
如何使用 Scrapy 从网站获取所有纯文本？

我希望在 HTML 呈现后可以从网站上看到所有文本我正在使用 Scrapy 框架使用 Python 工作和xpath body text 我能够获取它但是带有 HTML 标签而且我只想要文本有什么解决办法吗最简单的选择是ext
表达式中的 Python 'in' 关键字与 for 循环中的比较 [重复]

这个问题在这里已经有答案了我明白什么是in运算符在此代码中执行的操作 some list 1 2 3 4 5 print 2 in some list 我也明白i将采用此代码中列表的每个值 for i in 1 2 3 4 5 print

随机推荐

当我尝试通过控制面板打开 xampp shell 时，应用程序无法正确启动 0xc0000142 错误

将最新的 Xampp 版本与 PHP 7 结合使用 cmd exe 应用程序无法正确启动 0xc000142 单击确定即可关闭应用程序当我单击shellXAMPP 控制面板中的按钮我重新安装了 XAMPP 但它不起作用我将环境表更
谁能解释一下 chrome 扩展的清单文件中的“match_about_blank”有什么用？

我是 chrome 扩展的新手但不知道清单文件中 match about blank 属性的使用谁能用简单的话解释一下让我首先引用 match about blank 的文档 https developer chrome com ex
导航视图和半透明状态栏

我遵循了有关如何实现这一目标的所有提示但到目前为止没有成功我想要一个半透明透明不确定区别状态栏 2016 年 3 月 25 日更新我尝试了各种Theme属性都没有进展更新了我对 v21 样式文件的尝试和Bounty 有人有想法
Promise.resolve() 什么时候触发 then() 方法？ [复制]

这个问题在这里已经有答案了我正在学习js中的Promise 我对此有一些疑问这是代码 Promise resolve then gt console log 0 return Promise resolve 4 then res gt
如何使用 openssl 验证电子邮件中的 DKIM 签名？

我已经为我的 postfix 设置了 opendkim 现在所有外发邮件都有 DKIM Signature 标题我想要做的是手动验证无需 DNS 和外部实用程序最好仅使用 openssl 消息是否获得正确的签名所以作为输入数据我有
嵌套 FOR 循环和 IF 条件的问题

我有几行文字然后我有一个包含测试词的列表我喜欢查找文本的每一行并检查其中是否出现一个测试词在此之前这与如下命令配合使用效果很好 IF not stringToTest searchstring stringToTest 但是现在这
删除MySQL查询中的重复结果

MySQL 查询检索 totalpoints name 55 John Doe 55 John Doe 55 John Doe 55 John Doe 55 John Doe 21 Jean London 21 Jean London 13
RTTI 可以在设计时询问项目代码中的类型吗？

我想使用 RTTI 在设计时而不是运行时检查项目源文件中包含的类型据我所知这是不受支持的但评论中的讨论这个问题 https stackoverflow com questions 9046778 class reference as
替换 hg 分支的内容

我有一个 hg 仓库我曾经有一个名为 1 x 的短暂分支它在某个时间点终止了默认它被关闭是因为我觉得在那个特定时刻不需要使用该分支然而我被迫放弃默认的开发方式并在创建 1 x 之前的更早版本中创建另一个分支我无法使用 1
当我尝试使用或返回枚举值时，可以避免强制转换它吗？

如果我有以下枚举 public enum ReturnValue Success 0 FailReason1 1 FailReason2 2 Etc 我可以在返回时避免强制转换吗如下所示 public static int main st
Keycloak 中的资源、范围、权限和策略

我想使用 Keycloak 的授权系统创建一个相当简单的基于角色的访问控制系统 Keycloak 正在取代的系统允许我们创建一个用户他是一个或多个组的成员在这个遗留系统中通过组成员身份其中为组分配了权限或直接向用户授予权限
HTMLagilityPack 与 Powershell、Windows 身份验证相结合

所以我有一个叫做lansweeper的工具它在本地服务器上运行现在我想从中抓取一个页面但它使用 Windows 身份验证我使用 Powershell 作为脚本语言我主要使用HTMLAgilityPack来抓取但我从来没有抓取过使
if 中的单个等于。 JavaScript。有什么好的理由吗？

jQuery each player function key val if el pr attr plain key el text val 0 val 我继承了一个项目但我遇到了一些奇怪的事情启动这个项目的人是一位经验丰富的程序员
打开 facebook 页面进入 facebook 应用程序 Ios + ionic

目标在 facebook 应用程序中打开 facebook 页面 url 我正在使用离子version 1 6我努力了 a img src img fb png alt width auto height auto a 在控制器文件中我
使用 python 抓取 javascript:void(0) 内容

我正在制作一个程序其中我正在废弃一个网页并且内容从原始页面隐藏并用于显示自身herf javascript void 0 链接和文本位于 p 进而 span tags 这是我的代码 import requests re from bs4
类中的 JavaScript“onclick”上下文

今天我想知道在一个项目中保留上下文的最佳方法onClick在类中使用时的侦听器如果this在某个地方得到了回答请将我链接到它我显然太愚蠢了找不到它无论如何我的问题是是否有最佳实践或者我的一些想法是否愚蠢甚至错误我尝试了一些
如何进行 Django REST 框架 /me/ 调用？

假设我有一个ViewSet class ProfileViewSet viewsets ModelViewSet API endpoint that allows a user s profile to be viewed or edite
imap 自定义关键字

我从哪开始呢我似乎找不到任何明确的文档我可能找错地方了我希望能够编辑电子邮件的 IMAP 关键字用于标记目的我有一些非常菜鸟的问题它们是如何添加的关键字是否直接应用于消息标头如果是语法是什么或者是否有其他类型的 imap
错误：java.lang.SecurityException：签名者信息与同一包中其他类的签名者信息不匹配

我正在使用下面的 jar 文件 bcmail jdk16 1 46 bcprov jdk16 1 46 commons codec 1 9 commons io 2 5 我在这一行遇到错误 CMSSignedData cms new CMS
python中通过爬取子URL来下载文件

我正在尝试从大量网络链接下载文档主要是pdf格式如下所示 https projects worldbank org en projects operations document detail P167897 type projects

python中通过爬取子URL来下载文件

python中通过爬取子URL来下载文件 的相关文章

随机推荐

热门标签

python中通过爬取子URL来下载文件的相关文章