python爬取WHO全球疫情数据

2023-11-09

python讨论qq群：996113038

导语：

以武汉为中心的全国保卫战已经基本胜利，而国外的疫情发展开始愈演愈烈。很多小伙伴想要了解全球的疫情数据，所以这次我们来爬取一下世卫组织官网上的疫情pdf，以及几个主要国家从1月22到现在的数据。

爬取的网页主要有两个：

https://www.who.int/emergencies/diseases/novel-coronavirus-2019/situation-reports
https://experience.arcgis.com/experience/685d0ace521648f8a5beeeee1b9125cd

代码及相关资源获取：

1：关注“python趣味爱好者”公众号，回复“ code4 ”获取源代码。

2：加入群聊：996113038。在群文件中下载源代码以及相关资料。

开发工具：

python3.6.4

相关第三方库：

BeautifulSoup

pandas

json

time

效果演示：

全部下载完成后目录图片

pdf图片示例：

csv数据示例：

基本原理：

首先我们进入situation reports页面，可以看到中间全部是pdf的超链接，通过观察代码我们可以发现规律。

然后我们使用beautifulsoup来提取a标签内容

datas = soup.select('div#PageContent_C006_Col01 > div.sf-content-block.content-block > div a')

接下来我们循环获取每个a标签内容，并下载对应的pdf文件

    for data in datas:
        downloadUrl = 'https://www.who.int' + data['href'] #下载路径
        try:
            r = requests.get(downloadUrl)
            pdf = r.content  # 响应的二进制文件
            if (data.get_text()):
                with open(data.get_text() + ".pdf", 'wb') as f:  # 二进制写入
                    f.write(pdf)
                    print(data.get_text() + ".pdf" + "下载成功")
        except requests.exceptions.ConnectionError:
            r.status_code = "Connection refused"

然后我们开始爬取各国近段时间的疫情数据。

https://experience.arcgis.com/experience/685d0ace521648f8a5beeeee1b9125cd

在这个网页右侧我们可以看到各国名字

于是我们打开F12进行抓包

以意大利为例，我们可以看到这就是我们想要的数据，多观察几个国家我们可以发现各个国家的数据文件有一个共同规律

        url = 'https://services.arcgis.com/5T5nSi527N4F7luB/arcgis/rest/services/Historic_adm0_v3/FeatureServer/0/query?f=json&where=ADM0_NAME%3D%27' + name + '%27&returnGeometry=false&spatialRel=esriSpatialRelIntersects&outFields=OBJECTID%2CNewCase%2CDateOfDataEntry&orderByFields=DateOfDataEntry%20asc&resultOffset=0&resultRecordCount=2000&cacheHint=true'

所以循环将数据文件爬取下来，然后利用pandas转为csv文件即可

def getDatas():
    global res
    for name in ['China', 'Italy', 'Spain', 'France', 'Germany', 'Switzerland', 'Netherlands', 'Norway', 'Belgium', 'Sweden', 'Australia', 'Brazil', 'Egypt']:


        url = 'https://services.arcgis.com/5T5nSi527N4F7luB/arcgis/rest/services/Historic_adm0_v3/FeatureServer/0/query?f=json&where=ADM0_NAME%3D%27' + name + '%27&returnGeometry=false&spatialRel=esriSpatialRelIntersects&outFields=OBJECTID%2CNewCase%2CDateOfDataEntry&orderByFields=DateOfDataEntry%20asc&resultOffset=0&resultRecordCount=2000&cacheHint=true'
        html = json.loads(openUrl(url))
        conserve(html, name)
        print(name+"疫情数据下载成功")


    #America 单独拿出来
    name = 'America'
    url = 'https://services.arcgis.com/5T5nSi527N4F7luB/arcgis/rest/services/Historic_adm0_v3/FeatureServer/0/query?f=json&where=ADM0_NAME%3D%27United%20States%20of%20America%27&returnGeometry=false&spatialRel=esriSpatialRelIntersects&outFields=OBJECTID%2Ccum_conf%2CDateOfDataEntry&orderByFields=DateOfDataEntry%20asc&resultOffset=0&resultRecordCount=2000&cacheHint=true'
    html = json.loads(openUrl(url))
    conserve(html, name)
    print(name + "疫情数据下载成功")
    res['Datetime'] = pd.date_range(start='20200122', end=timeStamp(res.index.get_level_values(0).values[-1]))
    res.to_csv('Datas.csv', encoding='utf_8_sig')

部分代码：

下面是获取pdf函数代码：

def getPdfs():
    url = "https://www.who.int/emergencies/diseases/novel-coronavirus-2019/situation-reports"
    strhtml=requests.get(url)
    soup=BeautifulSoup(strhtml.text,'lxml')
    datas = soup.select('div#PageContent_C006_Col01 > div.sf-content-block.content-block > div a')
    for data in datas:
        downloadUrl = 'https://www.who.int' + data['href'] #下载路径
        try:
            r = requests.get(downloadUrl)
            pdf = r.content  # 响应的二进制文件
            if (data.get_text()):
                with open(data.get_text() + ".pdf", 'wb') as f:  # 二进制写入
                    f.write(pdf)
                    print(data.get_text() + ".pdf" + "下载成功")
        except requests.exceptions.ConnectionError:
            r.status_code = "Connection refused"

感谢大家观看，有钱的老板可以打赏一下小编哦！

扫描下方二维码，关注公众号

参考资料：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python爬取WHO全球疫情数据的相关文章

socket和mongodb

socket 创建一个socket 然后连接server url net Socket 发送信息给服务器 socket通信 client可以进行数据的编写和发送服务器只有一个只有开启了服务器客户端才能进行连接 mongodb 关系型
归并排序（简单易懂的代码）

归并排序是一种很重要的排序算法体现的是分而治之的思想很多的算法题的解法会借用这种算法思想在这里使用C 编程实现归并排序供自己回忆供他人参考 include
单元测试--重构

一单元测试 1 在没写函数内容代码前就要写单元测试类每个测试类中有TestSuite 2 如果写单元测试很困难那么可能是你对要测试的函数不是很了解如果不是则可能是设计的问题也许要重构二重构1 不要存在代码重复的现象若有且
Android-布局管理器

线性布局 Linearlayout 属性 orientation 布局管理器内组件的排列方式 horizontal 水平和vertical 垂直默认值为 horizontal layout weight 权重用于设置组件占父容器剩余空
网易云音乐播放器部分问题集

这周在做网易云音乐播放器这期间遇到了不少问题下面就来记录一下我所遇到的部分问题一接口问题调用网易云的接口网上一搜方法一大堆但是我的理解有些问题硬生生搞了好久下面就给那个方法再重新小白化一遍TAT 安装环境首先你要有nod
FastAPI Web框架 [Pydantic]

学习一下做个记录 Starlette Pydantic 与 FastAPI 的关系 Python 的类型提示 type hints Pydantic 是一个基于 Python 类型提示来定义数据验证序列化和文档使用JSON 模式库
基于Arduino IDE 和ESP32-CAM 制作远程摄像头

说明具体教程及详细步骤参考 arduino esp32 cam环境配置和例程使用在这里仅仅针对个人在开发过程中的一点经验及上文帖子没提到的一些部分做一个总结因为我当初根据这个教程做的时候有以下几点是导致我一开始浪费了大量时间精力的特
redis设计与实现读书笔记-主从复制

主从复制在Redis中用户可以通过执行SLAVEOF命令或者设置slaveof选项让一个服务器去复制 replicate 另一个服务器我们称呼被复制的服务器为主服务器 master 而对主服务器进行复制的服务器则被称为从服务器 sl
git使用X篇_2_Git全套教程IDEA版（git、GitHub、Gitee码云、搭建公司内部GitLab、与IDEA集成等内容）

本文是根据以下视频及网上总结进行更新后的介绍git使用的博文包含了git GitHub Gitee码云搭建公司内部GitLab 与IDEA集成等内容笔记来源尚硅谷 5h打通Git全套教程IDEA版涵盖GitHub Gitee码云
初识docker之如何运行一个容器

手把手运行一个镜像 1 容器的特点2 启动容器的参数3 docker run d it name test p 900 8080 v opt usr local 78b258e36eed d 后台执行容器 it 保持stdin和为容器创建t
一文搞懂Redis架构演化之路

你好我是 Kaito 这篇文章我想和你聊一聊 Redis 的架构演化之路现如今 Redis 变得越来越流行几乎在很多项目中都要被用到不知道你在使用 Redis 时有没有思考过 Redis 到底是如何稳定高性能地提供服务的我使用
Java Stream流处理Map 详细用法

文章目录 Java Stream流处理Map 详细用法实体类 Stream方法 Java Stream流处理Map 详细用法实体类 package com jzj model 当前描述 author jiazijie since 202
Code First Migrations更新数据库结构的具体步骤

Code First Migrations更新数据库结构的具体步骤作者寒羽枫 cityhunter172 http blog csdn net cityhunter172 article details 8062420 我对 CodeF
Kaldi声学模型训练

我的书淘宝购买链接当当购买链接京东购买链接支持标准的基于ML训练的模型线性变换如LDA HLDA MLLT STC 基于fMLLR MLLR的说话人自适应支持混合系统支持SGMMs 基于fMLLR的说话人识别模型代码可以
MAC 设计师必备的设计绘图软件推荐与下载

Mac设计师必备的设计绘图软件为广大设计师推荐一些Mac上实用且强大的软件使用好的软件事半功倍设计出精美的作品 Mac上优秀的设计类软件非常多绝对不止这几款软件看看以下内容希望对你有帮助如有更好的设计类软件大家也可以留言推荐
放弃大厂高薪的程序员，涌进体制内

本文转载自 InfoQ 作者罗燕珊我现在最庆幸的是下班终于能看到太阳了 2020 年 8 月 20 日下午 5 点半何双准备下班他特地朝窗外拍了张照片并发在朋友圈配图文案仅仅只有太阳 92 年出生的何双原先是一名程序员去年年
数据统计（基于文件输入输出）

输入一些整数求出它们的最大值最小值平均值保留三位小数输入保证这些数都是不超过1000的整数样例输入 2 8 3 5 1 7 3 6 样例输出 1 8 4 375 基于文件重定向 define LOCAL 作用仅在本机使用重定向
小程序报错：{“errMsg”:“navigateTo:fail can not navigateTo a tabbar page”}

小程序报错 errMsg navigateTo fail can not navigateTo a tabbar page 错误显示 VM791 1 Error MiniProgramError errMsg navigateTo fail
验证码报错 java.desktop/sun.awt.FontConfiguration.getVersion(FontConfiguration.java: 问题解决

验证码报错 org springframework web util NestedServletException Handler dispatch failed nested exception is java lang Internal
【C语言】选择排序

一算法描述在一遍遍历中将最小的数排到前面几次遍历后前面就是排号序的经过n 1次遍历二选择排序代码 void select int a int n int i j min temp for i 0 i

随机推荐

矩阵和向量的乘法顺序

矩阵和向量的乘法顺序似乎经常有人被这个问题转晕向量有两种表达形式行向量和列向量对应的矩阵也有行矩阵和列矩阵采用哪种形式和左右手系无关行矩阵三个轴向量为前三行最后一行为位移变换连乘时从左到右接合左边的变换先应用变换向量时
Ubuntu 18.02编译opencv

https blog csdn net public669 article details 99044895 spm 1001 2014 3001 5506 https blog csdn net Mr robot strange arti
利用STM32CubeMX软件生成USB_HOST读写U盘

一测试平台 MCU STM32F429IGT6 工具 STM32CubeMX软件编译软件 MDK 二配置步骤 1 打开STM32CubeMX软件创建新的工程文件点击ACCESS TO MCU SELECTOR选项 2 选择芯片型号
1-4、Lua基本语法

1 4 Lua基本语法文章目录 1 4 Lua基本语法 1 赋值语句 2 局部变量与代码块 3 控制结构语句 if语句 while语句 for语句有两大类 Lua像C和PASCAL几乎支持所有的传统语句赋值语句控制结构语句函数调用等
MFC之图标(标题)的动态使用15

1 图标标题的动态使用我们将实现左上角动态图标的显示首先按照向导创建新的项目由于我们的图标是属于框架所以在框架类处理 1 首先在框架类定义图标数组用于存储图片我这里有四张所以大小为4 private HICON m icon
程序员35岁以后就没有出路了吗？听听京东10年测开的分析

国内的互联网行业发展较快所以造成了技术研发类员工工作强度比较大同时技术的快速更新又需要员工不断的学习新的技术因此淘汰率也比较高超过35岁的基层研发类员工往往因为家庭原因身体原因比较难以跟得上工作节奏所以裁员往往优先考虑这类员
MCU接收串口字符型数据转换成数据型数据

转自 http blog csdn net langaopeng article details 7672252 做MCU开发时常常碰到串口接收的数据是字符型数据是ASCII码而我们需要解析的是数据型的如串口接收到的是 236 8
【机器学习实战】1、机器学习主要任务

文章目录 1 1 何谓机器学习 1 2 机器学习重要性 1 3 机器学习主要任务 1 4 如何选择合适的算法 1 5 开发机器学习应用程序的步骤 1 6 python语言的优势 1 6 1 python语言特色 1 6 2 python语言
npm、cnpm、yarn之间的区别

npm 在使用 npm 安装包的时候给人的第一感觉就是慢而且还会在命令行打印出一堆的东西而且经常会出现在我的电脑上可以这个问题着实是有点难受但也不得不说 npm 是 node 如此成功的主要原因之一 npm的缺点如下 1 由于
网站html保存,如何保存网页内容（高级篇）

上一篇介绍了允许另存为的网站保存网页的方法本篇继续介绍禁止另存为的网站也实现保存网页的方法步骤比上一篇麻烦一些但也不难以下是具体步骤提示对于这类网站尽管文件菜单中的另存为是可用的但当你试图另存为网页快要保存
[网络安全自学篇] 七十八.XSS跨站脚本攻击案例分享及总结（二）

这是作者网络安全自学教程系列主要是关于安全工具和实践操作的在线笔记特分享出来与博友们学习希望您喜欢一起进步前文分享了肖老师 Seak 的分享介绍恶意代码与APT攻击中的武器包括A2PT的攻击武器普通APT组织的自研恶意代码
虚拟机Parallels Desktop

Mac上安装Windows虚拟机 Parallels Desktop 之前在Mac上安装虚拟机使用的是VMware Fusion 用起来感觉不是很流畅很不舒服所以今天试试号称Mac上最好的虚拟机Parallels Desktop 概述
迷你气象站（雨量计，风速，风向）

天气预报对于计划我们的日常活动很重要农民需要信息来帮助他们计划农作物的种植和收割航空公司需要了解当地天气状况才能安排航班天气预报可以帮助我们做出更明智的日常决策甚至可以帮助我们摆脱危险在本教程中我们将制作一个微型气象站该气象站
python迷宫游戏的课程设计,Python迷宫游戏（基础版）

画地图 map data 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 2 1 0 0 0 0 0 0 1 1 0 1 0 1 0 1 1 0 1 1 0 1 0 1 0 1 1 0 1 1 0 0 0
互联网晚报

教育部回应降低英语教学比重建议中小学外语课时占比低于语文等学科教育部网站9月23日公布对关于增强文化自信增加中国文化内容教学改革和降低英语教学比重的建议的答复答复显示根据规定外语课时占比为6 8 明显低于语文数学体育艺
opencv3+python3.5成语填字游戏（一）印刷体汉字的分割

首先这是一个成语填字游戏大概就是一张成语填字游戏图片通过opencv图像识别后转为矩阵再通过解算法解出答案在显示到图片上源代码 https github com mayue801 crossword puzzle idiom 本
mac kafka安装

1 安装 brew install kafka kafka依赖于zookeeer 所以使用homebrew安装kafka 集群时 zookeeper也会被安装 2 zookeeper和kafka启动重启关闭 zookeeper后台启动
initialize specified but the data directory has files in it. Aborting 错误解决

最近学习配置mysql 1 先按百度的文章https jingyan baidu com article f3ad7d0ffc061a09c3345bf0 html 做好基础工作但是在执行 net start mysql 时失败了提示
油猴脚本(Tampermonkey)的获取与简单使用

油猴脚本的使用什么是油猴脚本油猴可以通过安装各类脚本对网站进行定制当然伟大的脚本面向的是所有上网者所以借由各位大神的脚本我们能实现更多更强大的功能例如直接下载百度网盘文件全速重新定制繁杂的微博页面去掉视频播放广告甚至播
python爬取WHO全球疫情数据

python讨论qq群 996113038 导语以武汉为中心的全国保卫战已经基本胜利而国外的疫情发展开始愈演愈烈很多小伙伴想要了解全球的疫情数据所以这次我们来爬取一下世卫组织官网上的疫情pdf 以及几个主要国家从1月22到现在的数据

python爬取WHO全球疫情数据

python爬取WHO全球疫情数据 的相关文章

随机推荐

热门标签

python爬取WHO全球疫情数据的相关文章