如何从网站中提取冠状病毒病例？

2024-05-10

我正在尝试从网站中提取冠状病毒（https://www.trackcorona.live https://www.trackcorona.live）但我得到了一个错误。

这是我的代码：

response = requests.get('https://www.trackcorona.live')
data = BeautifulSoup(response.text,'html.parser')
li = data.find_all(class_='numbers')
confirmed = int(li[0].get_text())
print('Confirmed Cases:', confirmed)

它给出了以下错误（尽管它在几天前工作），因为它返回一个空列表（li）

 IndexError                               
 Traceback (most recent call last)
<ipython-input-15-7a09f39edc9d> in <module>
      2 data=BeautifulSoup(response.text,'html.parser')
      3 li=data.find_all(class_='numbers')
----> 4 confirmed = int(li[0].get_text())
      5 countries = li[1].get_text()
      6 dead = int(li[3].get_text())

IndexError: list index out of range

好吧，实际上该网站正在生成一个重定向CloudFlare，然后通过动态加载JavaScript一旦页面加载，因此我们可以使用多种方法，例如selenium and requests_html但我会为您提到最快的解决方案，因为我们将呈现JS在飞行中:)

import cloudscraper
from bs4 import BeautifulSoup

scraper = cloudscraper.create_scraper()

html = scraper.get("https://www.trackcorona.live/").text

soup = BeautifulSoup(html, 'html.parser')

confirmed = soup.find("a", id="valueTot").text

print(confirmed)

Output:

提示503 response code:

基本上该代码指的是service unavailable.

更技术地说，GET无法满足您发送的请求。原因是因为请求被困在receiver的请求是https://www.trackcorona.live/ https://www.trackcorona.live/它在哪里将其处理到同一个源上的另一个源HOST这是https://www.trackcorona.live/?cf_chl_jschl_tk= https://www.trackcorona.live/?__cf_chl_jschl_tk__=

Where __cf_chl_jschl_tk__=正在持有一个token进行身份验证。

所以你通常应该按照你的代码来服务host与所需的数据。

如下所示end url:

import requests
from bs4 import BeautifulSoup


def Main():
    with requests.Session() as req:
        url = "https://www.trackcorona.live"
        r = req.get(url)
        soup = BeautifulSoup(r.text, 'html.parser')
        redirect = f"{url}{soup.find('form', id='challenge-form').get('action')}"
        print(redirect)


Main()

Output:

https://www.trackcorona.live/?__cf_chl_jschl_tk__=575fd56c234f0804bd8c87699cb666f0e7a1a114-1583762269-0-AYhCh90kwsOry_PAJXNLA0j6lDm0RazZpssum94DJw013Z4EvguHAyhBvcbhRvNFWERtJ6uDUC5gOG6r64TOrAcqEIni_-z1fjzj2uhEL5DvkbKwBaqMeIZkB7Ax1V8kV_EgIzBAeD2t6j7jBZ9-bsgBBX9SyQRSALSHT7eXjz8r1RjQT0SCzuSBo1xpAqktNFf-qME8HZ7fEOHAnBIhv8a0eod8mDmIBDCU2-r6NSOw49BAxDTDL57YAnmCibqdwjv8y3Yf8rYzm2bPh74SxVc

现在可以结束了URL所以你需要通过所需的Form-Data:

像这样的东西：

def Main():
    with requests.Session() as req:
        url = "https://www.trackcorona.live"
        r = req.get(url)
        soup = BeautifulSoup(r.text, 'html.parser')
        redirect = f"{url}{soup.find('form', id='challenge-form').get('action')}"
        data = {
            'r': 'none',
            'jschl_vc': 'none',
            'pass': 'none',
            'jschl_answer': 'none'
        }
        r = req.post(redirect, data=data)
        print(r.text)




Main()

在这里你最终会得到text没有你想要的价值观。因为你的值是通过呈现的JS.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何从网站中提取冠状病毒病例？的相关文章

如何在刻度标签和轴之间添加空间

我已成功增加刻度标签的字体但现在它们距离轴太近了我想在刻度标签和轴之间添加一点呼吸空间如果您不想全局更改间距通过编辑 rcParams 并且想要更简洁的方法请尝试以下操作 ax tick params axis both whic
将字符串转换为带有毫秒和时区的日期时间 - Python

我有以下 python 片段 from datetime import datetime timestamp 05 Jan 2015 17 47 59 000 0800 datetime object datetime strptime t
如何生成给定范围内的回文数列表？

假设范围是 1 X 120 这是我尝试过的 gt gt gt def isPalindrome s check if a number is a Palindrome s str s return s s 1 gt gt gt def ge
如何打印没有类型的defaultdict变量？

在下面的代码中 from collections import defaultdict confusion proba dict defaultdict float for i in xrange 10 confusion proba di
如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
获取 2 个字母的州/省缩写

因此我使用 GeoNames API 获取国家地区和州省信息并使用这些信息填充表单中的选择下拉列表此表单将其信息提交给 SOAP Web 服务并且 SOAP 服务器仅理解 2 个字母形式的国家地区和州省数据 IE CA 代表
如何在Windows上模拟socket.socketpair

标准Python函数套接字套接字对 https docs python org 3 library socket html socket socketpair不幸的是它在 Windows 上不可用从 Python 3 4 1 开始我
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
安装后 Anaconda 提示损坏

我刚刚安装张量流GPU创建单独的后环境按照以下指示here https github com antoniosehk keras tensorflow windows installation 但是安装后当我关闭提示窗口并打开新航站楼弹出
如何使用装饰器禁用某些功能的中间件？

我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
使用 Pycharm 在 Windows 下启动应用程序时出现 UnicodeDecodeError

问题是当我尝试启动应用程序 app py 时我收到以下错误 UnicodeDecodeError utf 8 编解码器无法解码位置 5 中的字节 0xb3 起始字节无效整个文件app py coding utf 8 from flask
IRichBolt 在storm-1.0.0 和 pyleus-0.3.0 上运行拓扑时出错

我正在运行风暴拓扑 pyleus verbose local xyz topology jar using storm 1 0 0 pyleus 0 3 0 centos 6 6并得到错误线程 main java lang NoClass
ExpectedFailure 被计为错误而不是通过

我在用着expectedFailure因为有一个我想记录的错误我现在无法修复但想将来再回来解决我的理解expectedFailure是它会将测试计为通过但在摘要中表示预期失败的数量为 x 类似于它如何处理跳过的 tets 但是当我
Python 3 中“map”类型的对象没有 len()

我在使用 Python 3 时遇到问题我得到了 Python 2 7 代码目前我正在尝试更新它我收到错误类型错误 map 类型的对象没有 len 在这部分 str len seed candidates 在我像这样初始化它之前 se
Nuitka 未使用 nuitka --recurse-all hello.py [错误] 编译 exe

我正在尝试通过 nuitka 创建一个简单的 exe 这样我就可以在我的笔记本电脑上运行它而无需安装 Python 我在 Windows 10 上并使用 Anaconda Python 3 我输入 nuitka recurse all h
为美国东部以外地区的 Cloudwatch 警报发送短信？

AWS 似乎没有为美国东部以外的 SNS 主题订阅者提供 SMS 作为协议我想连接我的 CloudWatch 警报并在发生故障时接收短信但无法将其发送到 SMS YES 经过一番挖掘后我能够让它发挥作用它比仅仅选择一个主题或输入闹钟
glpk.LPX 向后兼容性？

较新版本的glpk没有LPXapi 旧包需要它我如何使用旧包例如COBRA http opencobra sourceforge net openCOBRA Welcome html 与较新版本的glpk 注意COBRA适用于 MATL
在python中，如何仅搜索所选子字符串之前的一个单词

给定文本文件中的长行列表我只想返回紧邻其前面的子字符串例如单词狗描述狗的单词例如假设有这些行包含狗 hotdog big dog is dogged dog spy with my dog brown dogs 在这种情况下期望
改变字典的哈希函数

按照此question https stackoverflow com questions 37100390 towards understanding dictionaries 我们知道两个不同的字典 dict 1 and dict 2例
Pandas 与 Numpy 数据帧

看这几行代码 df2 df copy df2 1 df 1 df 1 values 1 df2 ix 0 0 我们的教练说我们需要使用 values属性来访问底层的 numpy 数组否则我们的代码将无法工作我知道 pandas Data

随机推荐

在 xCode 6 中发现意外的 Mach-O 标头代码：1918975009

导致错误的原因是什么 Found an unexpected Mach O header code 1918975009 in xCode 6 我将我的项目存档并作为ad hoc构建并且它构建链接存档很好但是当我在xCode组织者和选择
getClassLoader().getResource() 返回 null

我有这个测试应用程序 import java applet import java awt import java net URL public class Test extends Applet public void init URL
如何用xlrd读取公式

我正在尝试做一个解析器它读取几个 Excel 文件我通常需要位于行底部的值您可以在其中找到所有上部元素的总和因此单元格值实际上是 sum 或 A5 0 5 可以说对于使用 Excel 打开此文件的用户来说它看起来像一个数字这
无法在浏览器上访问 localhost:4200 上的 NodeJS 应用程序（docker run -p 4200:4200 ....）

我需要一些帮助对 docker 很陌生感觉这是我错过的一些小事我正在尝试使用 dockerfile 和 docker compose 运行 nodejs 应用程序然而我使用的是 Ubuntu 17 04 LTS 尽管状态显示为 U
PHP：检测USB设备

我正在尝试使用 PHP 将用户名和密码存储到 USB 拇指驱动器上的文本文件中因此当用户返回使用 USB 密钥登录时应该会打开一个弹出窗口并提示输入用户名和密码所以我的问题是如何使用 PHP 检测 USB 拇指驱动器所以客户端或
如何使用 Apache Arrow 在 Windows 上使用 C++ 编写 Parquet 格式的文件？

我正在尝试使用 C 在 Windows 上编写 Parquet 文件我按照我找到的说明进行操作here https github com apache arrow blob master docs source developers cp
htaccess - XAMPP 上的互联网服务器错误 500 [已关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我尝试在 XAMPP 上运行脚本但收到互联网服务器错误 500 在实时服务器上运行时效果很好我认为这是一个 htaccess 错误 htacce
如何在 Angular Material 2 中使用 mat-chip 和自动完成功能保存选定的对象

我正在使用 Angular 6 和 Angular Material 我正在尝试从 mat chip 和自动完成功能中保存选定的对象或选定对象的列表我能够将字符串值发送到fruits 数组但无法将选定的对象发送到fruits 数组请帮
如何使用php api检查电子邮件或手机paypal帐户状态？

如何使用 php api 检查电子邮件或手机 Paypal 帐户状态好的如果我想汇款到此电子邮件贝宝 email protected cdn cgi l email protection 或手机 1234567890 汇款前我可以检查
如何仅将整个嵌套目录中的头文件复制到另一个目录，在复制到新文件夹后保持相同的层次结构

我有一个目录其中有很多头文件 h 和其他 o 和 c 文件以及其他文件这个目录里面有很多嵌套的目录我只想将头文件复制到一个单独的目录并在新目录中保留相同的结构 cp rf oldDirectory newDirectory将复制所有
Kafka 主题删除不起作用

我使用的是 Kafka 0 8 2 版本在开发过程中我想我可能需要删除一个主题所以我所做的是将以下行放入服务器配置文件中并启动两个 kafka 服务器 delete topic enable true 当我需要删除一个主题并运行以下命
使用 ES6 静态函数时，我得到“没有这样的方法”

我正在尝试为我在 React Native 中工作的项目创建一个包含静态函数的 utils 类我读到了如何在 StackOverFlow 中创建静态函数question https stackoverflow com questions
想要从字符格式转换为带小数的数字格式

想要将字符格式 00001000000 转换为10000 00 请帮我我已经尝试过 select to number 00012300 9999999999 99 nls numeric characters from dual 这个脚本
当我用一个观察值运行回归时，为什么“fastLm()”会返回结果？

为什么fastLm 当我用一项观察进行回归时返回结果吗下面为什么不lm and fastLm 结果相等吗 library Rcpp library RcppArmadillo library data table set seed 1 D
std::vector 移动/重新分配内部 wstring.data() 合法吗？

以下是摘录 std vector
ASCIIEncoding.ASCII.GetBytes() 返回意外值

这段 C 代码 string s u00C0 byte bytes ASCIIEncoding ASCII GetBytes s Trace WriteLine BitConverter ToString bytes 产生以下输出 3F 为
为什么 GDB 启动一个新的 shell 以及如何禁用此行为？

我正在解决一个问题即从 GDB 启动应用程序会导致符号查找错误但从 shell 启动它却可以事实证明每当你从 GDB 中启动一个程序时它都会启动一个新的 shell 从而覆盖我在启动 GDB 之前设置的所有环境变量例如LD LI
PHP根据给定索引的匹配值合并数组[重复]

这个问题在这里已经有答案了我有两个这样的数组 Array1 Array 0 gt Array ID gt 101 Code gt 1075 Date gt 2012 03 03 17 13 12 433 1 gt Array ID gt
UINavigationBar setBackgroundImage 在 AppDelegate 中使用 Swift

我正在尝试在 Swift 的 App Delegate 中全局设置导航栏的背景图像我可以让它在单独的视图控制器上工作如下所示 var topBar UINavigationBar topBar setBackgroundImage UI
如何从网站中提取冠状病毒病例？

我正在尝试从网站中提取冠状病毒 https www trackcorona live https www trackcorona live 但我得到了一个错误这是我的代码 response requests get https www t

如何从网站中提取冠状病毒病例？

如何从网站中提取冠状病毒病例？ 的相关文章

随机推荐

热门标签

如何从网站中提取冠状病毒病例？的相关文章