使用 BeautifulSoup 的 Python 进行网页抓取 429 错误

2023-12-02

首先，我不得不说我对使用 Python 进行 Web 抓取还很陌生。我正在尝试使用这些代码行来抓取数据

import requests
from bs4 import BeautifulSoup
baseurl ='https://name_of_the_website.com'
html_page = requests.get(baseurl).text
soup = BeautifulSoup(html_page, 'html.parser')
print(soup)

作为输出，我没有得到预期的 Html 页面，而是另一个 Html 页面，上面写着：Misbehaving Content Scraper 请使用robots.txt 您的IP已被限速

为了检查我写的问题：

try:
page_response = requests.get(baseurl, timeout =5)
 if page_response.status_code ==200:
   html_page = requests.get(baseurl).text
   soup = BeautifulSoup(html_page, 'html.parser')

 else:
  print(page_response.status_code)
except requests.Timeout as e:
print(str(e))

然后我得到 429（请求太多）。

我可以做什么来解决这个问题？这是否意味着我无法打印页面的 Html，并且是否会阻止我抓取页面的任何内容？我应该轮换 IP 地址吗？

如果您只访问该页面一次并获得429可能不是你打他们太多了。你不能确定429错误是准确的，这只是他们的网络服务器返回的内容。我见过页面返回 404 响应代码，但页面正常，而合法缺失页面上返回 200 响应代码，只是服务器配置错误。他们可能会回来429从任何机器人，尝试改变你的User-Agent到 Firefox、Chrome 或“Robot Web Scraper 9000”，看看您会得到什么。像这样：

requests.get(baseurl, headers = {'User-agent': 'Super Bot Power Level Over 9000'})

声明自己是机器人或

requests.get(baseurl, headers = {'User-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36'})

如果您想更多地模仿浏览器。请注意所有模仿浏览器的版本内容，在撰写本文时这些内容都是最新的。您可能需要更高版本号。只需找到您使用的浏览器的用户代理，此页面会告诉您那是什么：

https://www.whatismybrowser.com/detect/what-is-my-user-agent

如果您只是说自己是机器人，某些网站会返回更好的可搜索代码，而其他网站则相反。这基本上就是狂野的西部，必须尝试不同的事情。

另一个专业提示，您可能需要编写代码才能拥有“cookie jar”或接受 cookie 的方法。通常这只是您请求中的额外一行，但我会将其留给另一个 stackoverflow 问题:)

如果你确实经常打电话，那么你需要在通话之间睡觉。这是完全由他们控制的服务器端响应。您还需要研究您的代码如何与robots.txt，该文件通常位于网络服务器的根目录中，其中包含它希望您的蜘蛛遵循的规则。

您可以在这里阅读相关内容：在Python中解析Robots.txt

抓取网络既有趣又具有挑战性，请记住，您可能随时被任何网站以任何原因阻止，您是他们的客人。所以好好走路:)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 BeautifulSoup 的 Python 进行网页抓取 429 错误的相关文章

python SSLError("握手错误：SysCallError(-1，'意外的 EOF')",),))

我正在抓取这个 aspx 网站https gra206 aca ntu edu tw Temp W2 aspx Type 2 https gra206 aca ntu edu tw Temp W2 aspx Type 2 根据需要我必须解
Python 中的 Lanczos 插值与 2D 图像

我尝试重新缩放 2D 图像灰度图像大小为 256x256 所需输出为 224x224 像素值范围从 0 到 1300 我尝试了两种使用 Lanczos 插值来重新调整它们的方法首先使用PIL图像 import numpy as np
Python 的键盘中断不会中止 Rust 函数 (PyO3)

我有一个使用 PyO3 用 Rust 编写的 Python 库它涉及一些昂贵的计算单个函数调用最多需要 10 分钟从 Python 调用时如何中止执行 Ctrl C 好像只有执行结束后才会处理所以本质上没什么用最小可重现示例 Ca
Django 管理员在模型编辑时间歇性返回 404

我们使用 Django Admin 来维护导出到我们的一些站点的一些数据有时当单击标准更改列表视图来获取模型编辑表单而不是路由到正确的页面时我们会得到 Django 404 页面模板它是偶尔发生的我们可以通过重新加载三次来重现它
如何在 Python 中检索 for 循环中的剩余项目？

我有一个简单的 for 循环迭代项目列表在某些时候我知道它会破裂我该如何退回剩余的物品 for i in a b c d e f g try some func i except return remaining items if s
PyUSB 1.0：NotImplementedError：此平台不支持或未实现操作

我刚刚开始使用 pyusb 基本上我正在玩示例代码here https github com walac pyusb blob master docs tutorial rst 我使用的是 Windows 7 64 位并从以下地址下载 z
使用 on_bad_lines 将 pandas.read_csv 中的无效行写入文件

我有一个 CSV 文件我正在使用 Python 来解析该文件我发现文件中的某些行具有不同的列数 001 Snow Jon 19801201 002 Crom Jake 19920103 003 Wise Frank 19880303 l
是否可以忽略一行的pyright检查？

我需要忽略一行的pyright 检查有什么特别的评论吗 def create slog group SLogGroup data Optional dict None SLog insert one SLog group group da
如何使用 OpencV 从 Firebase 读取图像？

有没有使用 OpenCV 从 Firebase 读取图像的想法或者我必须先下载图片然后从本地文件夹执行 cv imread 功能有什么办法我可以使用cv imread link of picture from firebase 您可以
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
绘制方程

我正在尝试创建一个函数它将绘制我告诉它的任何公式 import numpy as np import matplotlib pyplot as plt def graph formula x range x np array x rang
如何在Python中获取葡萄牙语字符？

我正在研究葡萄牙语角色看起来很奇怪我怎样才能解决这个问题代码 import feedparser import random Vou definir os feeds feeds conf feedurl http pplware s
Python 的“zip”内置函数的 Ruby 等价物是什么？

Ruby 是否有与 Python 内置函数等效的东西zip功能如果不是做同样事情的简洁方法是什么一些背景信息当我试图找到一种干净的方法来进行涉及两个数组的检查时出现了这个问题如果我有zip 我可以写这样的东西 zip a b a
使用 \r 并打印一些文本后如何清除控制台中的一行？

对于我当前的项目有一些代码很慢并且我无法使其更快为了获得一些关于已完成必须完成多少的反馈我创建了一个进度片段您可以在下面看到当你看到最后一行时 sys stdout write r100 80 n I use 80覆盖最终剩余的
Pandas：merge_asof() 对多行求和/不重复

我正在处理两个数据集每个数据集具有不同的关联日期我想合并它们但因为日期不完全匹配我相信merge asof 是最好的方法然而有两件事发生merge asof 不理想的数字重复数字丢失以下代码是一个示例 df a pd Da
如何计算 pandas 数据帧上的连续有序值

我试图从给定的数据帧中获取连续 0 值的最大计数其中包含来自 pandas 数据帧的 id date value 列如下所示 id date value 354 2019 03 01 0 354 2019 03 02 0 354 201
使用其构造函数初始化 OrderedDict 以便保留初始数据的顺序的正确方法？

初始化有序字典 OD 以使其保留初始数据的顺序的正确方法是什么 from collections import OrderedDict Obviously wrong because regular dict loses order d O
使用 XMLHTTP 进行抓取会在特定类名处引发错误

我正在尝试使用此代码抓取网站以提取姓名和联系人 Sub Test Dim htmlDoc As Object Dim htmlDoc2 As Object Dim elem As Variant Dim tag As Variant Dim
如何使用 Pycharm 安装 tkinter？ [复制]

这个问题在这里已经有答案了 I used sudo apt get install python3 6 tk而且效果很好如果我在终端中打开 python Tkinter 就可以工作但我无法将其安装在我的 Pycharm 项目上 pip
Statsmodels.formula.api OLS不显示截距的统计值

我正在运行以下源代码 import statsmodels formula api as sm Add one column of ones for the intercept term X np append arr np ones 50

随机推荐

AmazonS3Client 单个连接与每次调用的新连接 C#

我正在使用 AmazonS3Client 将数据读取写入 S3 对象存储在我的代码中我每次执行读取列出存储桶上传重命名删除等操作时都会创建一个新连接将应用程序部署到生产环境后我遇到了一些性能问题在浏览了几篇博客后建议使
如何在 matplotlib Finance 中保存蜡烛图

我制作了一些 python 脚本来使用 mpl finance 创建烛台图我已经成功制作了烛台图但为了我的生活我找不到将图表保存为 png 的方法这是我的代码 pip install yfinance pip install mpl
获取随机 android.database.sqlite.SQLiteBlobTooBigException

我在应用程序中使用 Room 作为单一事实来源因此来自后端的所有内容都保存在我的房间数据库中然后返回一个 Flowable 每次数据更改时都会触发一个事件这是我的 PlacesDAO Dao abstract class Places
PostgreSQL 自定义周数 - 包含 2 月 1 日的第一周

我是 SQL 函数的新手并尝试创建一个显示自定义周数的日历表每周从星期六开始到星期五结束每年的第一周始终包含该年的 2 月 1 日例如如果特定年份的 2 月 1 日是星期二则第一周那一年是1月29日至2月4日我已经为这个问题苦
ModuleNotFoundError：运行 yum 或 dnf 时没有名为“dnf”的模块

几天前我想运行 dnf 但收到以下错误 Traceback most recent call last File usr bin dnf line 57 in
按名称创建 Objective-C 类实例？

是否可以通过名称创建类的实例就像是 NSString className Car id p Magic createClassByName className p turnOnEngine 我不知道这在 Objective C 中是否可行
将回调作为 upload_to 传递给 FileField

我有一个抽象模型类 UploadItem 用于处理上传的文件我希望每个子类都能够定义 upload to 路径为此我将回调传递给 FileField 的构造函数这是一个例子 class UploadItem models Model
JavaFX：线程“JavaFX 应用程序线程”java.lang.RuntimeException 中的异常：java.lang.reflect.InitationTargetException

我正在开发 JavaFX 项目遇到这样的错误 Logout Exception in thread JavaFX Application Thread java lang RuntimeException java lang reflec
emberjs - 如何使用路由器基础设施标记活动菜单项

我正在尝试创建导航选项卡取自推特引导程序 ul class nav nav tabs li class active a href Home a li li a href Profile a li li a href Messages a
如何在弹性布局中拥有固定元素（如 float: right）？

I have a flex layout with elements in it I want one of them to always stick in the top right corner When I put it out of
LessCSS - 带变量和减亮的 IE 渐变过滤器

我需要在 Less CSS 中使用带有变量和变亮的 IE 渐变过滤器这可能吗 whatever filter progid DXImageTransform Microsoft gradient startColorstr lighten
哈希表中的通用列表

我可以将数组定义为这样的通用列表 array Collections Generic List String 我可以将哈希表中的元素定义为这样的数组 hash array 但我无法将哈希表中的元素定义为通用列表如下所示 hash arra
Fabricjs 1.6.3：为什么活动对象总是显示在顶部

我的问题的良好演示 http fabricjs com hovering如果您选择任何项目它将显示在顶部在早期版本 1 5 0 1 6 2 中不存在此问题抱歉英语不好如果你不想要这种行为你可以设置保留对象堆叠为真检查此处的文档
使用 Android Gradle 更改版本代码

我正在尝试在我的版本中自动增加 versionCodebuild gradle 但这不起作用然后我尝试简单地覆盖 versionCode 例如versionCode 20但它仍然没有更新都检查过原件AndroidManifest xml
指向接口/重载过程的过程指针

我使用过程重载和接口来在 Fortran 程序中实现某种通用性为此我有一个包含许多过程的模块所有过程都是重复的以便能够更改变量类型我还在模块的开头提供了一系列以下类型的接口 interface norm module proced
Geodjango 的 Beanstalk 迁移失败

我想在 aws beanstalk 中部署 geodjango 我已经尝试过这个解决方案以前有用过 commands 01 yum update command sudo yum y update 02 epel repo command
当向视图控制器添加展开函数时，链接器命令失败，退出代码为 1

我正在使用 Storyboard 开发一款 iPad 应用程序在我的应用程序中我有一个弹出窗口和一个视图控制器如果我添加一个像这样的函数 IBAction unwindCouponPaymentToOrderdetailsView U
python 中的复制构造函数？

python中有复制构造函数吗如果不是我会做什么来实现类似的目标情况是我正在使用一个库并且我已经用额外的功能扩展了其中一个类并且我希望能够将从库中获取的对象转换为我自己的类的实例我想你想要复制模块 import copy x
如何将词云放入grob中？

我创建了一个简单的词云 require wordcloud words lt c affectionate ambitious anxious articulate artistic caring contented creative cy
使用 BeautifulSoup 的 Python 进行网页抓取 429 错误

首先我不得不说我对使用 Python 进行 Web 抓取还很陌生我正在尝试使用这些代码行来抓取数据 import requests from bs4 import BeautifulSoup baseurl https name of

使用 BeautifulSoup 的 Python 进行网页抓取 429 错误

使用 BeautifulSoup 的 Python 进行网页抓取 429 错误 的相关文章

随机推荐

热门标签

使用 BeautifulSoup 的 Python 进行网页抓取 429 错误的相关文章