无法修改函数以独立工作而不是依赖于返回的结果

2024-03-30

我用 python 编写了一个脚本，在向某些链接发送请求时使用代理，以便从那里解析产品名称。我目前的尝试完美地完成了这项工作。这个功能parse_product()完全依赖于返回的结果（代理），以便以正确的方式重用相同的代理。我正在尝试修改parse_product()以这样的方式运行函数，以便该函数不依赖于先前对同一函数的调用，以便重用工作代理直到无效。更清楚地说 - 我希望主要功能更像下面这样。然而，当它完成解决后，我将使用多重处理来使脚本运行得更快：

if __name__ == '__main__':
    for url in linklist:
        parse_product(url)

尽管如此，希望脚本能够像现在一样工作。

我尝试过（工作之一）：

import random
import requests
from random import choice
from urllib.parse import urljoin
from bs4 import BeautifulSoup

linklist = [
    'https://www.amazon.com/dp/B00OI0RGGO', 
    'https://www.amazon.com/dp/B00TPKOPWA', 
    'https://www.amazon.com/dp/B00TH42HWE' 
]

proxyVault = ['103.110.37.244:36022', '180.254.218.229:8080', '110.74.197.207:50632', '1.20.101.95:49001', '200.10.193.90:8080', '173.164.26.117:3128', '103.228.118.66:43002', '178.128.231.201:3128', '1.2.169.54:55312', '181.52.85.249:31487', '97.64.135.4:8080', '190.96.214.123:53251', '52.144.107.142:31923', '45.5.224.145:52035', '89.218.22.178:8080', '192.241.143.186:80', '113.53.29.218:38310', '36.78.131.182:39243']

def process_proxy(proxy):
    global proxyVault
    if not proxy:
        proxy_url = choice(proxyVault)
        proxy = {'https': f'http://{proxy_url}'}
    else:
        proxy_pattern = proxy.get("https").split("//")[-1]
        if proxy_pattern in proxyVault:
            proxyVault.remove(proxy_pattern)
        random.shuffle(proxyVault)
        proxy_url = choice(proxyVault)
        proxy = {'https': f'http://{proxy_url}'}
    return proxy


def parse_product(link,proxy):
    try:
        if not proxy:raise
        print("checking the proxy:",proxy)
        res = requests.get(link,proxies=proxy,timeout=5)
        soup = BeautifulSoup(res.text,"html5lib")
        try:
            product_name = soup.select_one("#productTitle").get_text(strip=True)
        except Exception: product_name = ""

        return proxy, product_name

    except Exception:
        """the following line when hit produces new proxy and remove the bad one that passes through process_proxy(proxy)"""
        proxy_link = process_proxy(proxy)
        return parse_product(link,proxy_link)


if __name__ == '__main__':
    proxy = None
    for url in linklist:
        result = parse_product(url,proxy)
        proxy = result[0]
        print(result)

Note: parse_product()函数返回代理和产品名称。但是，函数返回的代理会在同一函数中重用parse_product()直至无效。

顺便说一下，proxyVault 中使用的代理只是占位符。

如果您不需要多线程支持（您的编辑表明您不需要），您可以通过以下细微更改使其工作。proxyVault保留整个代理池，and洗牌列表后的活动代理（最后一个）（您的代码同时具有shuffle and choice，但只需其中之一就足够了）。pop()- 从列表中更改活动代理，直到没有剩余代理为止。

import random
import requests
from random import choice
from urllib.parse import urljoin
from bs4 import BeautifulSoup

linklist = [
    'https://www.amazon.com/dp/B00OI0RGGO',
    'https://www.amazon.com/dp/B00TPKOPWA',
    'https://www.amazon.com/dp/B00TH42HWE'
]

proxyVault = ['103.110.37.244:36022', '180.254.218.229:8080', '110.74.197.207:50632', '1.20.101.95:49001', '200.10.193.90:8080', '173.164.26.117:3128', '103.228.118.66:43002', '178.128.231.201:3128', '1.2.169.54:55312', '181.52.85.249:31487', '97.64.135.4:8080', '190.96.214.123:53251', '52.144.107.142:31923', '45.5.224.145:52035', '89.218.22.178:8080', '192.241.143.186:80', '113.53.29.218:38310', '36.78.131.182:39243']
random.shuffle(proxyVault)


class NoMoreProxies(Exception):
    pass


def skip_proxy():
    global proxyVault
    if len(proxyVault) == 0:
        raise NoMoreProxies()
    proxyVault.pop()


def get_proxy():
    global proxyVault
    if len(proxyVault) == 0:
        raise NoMoreProxies()
    proxy_url = proxyVault[-1]
    proxy = {'https': f'http://{proxy_url}'}
    return proxy


def parse_product(link):
    try:
        proxy = get_proxy()
        print("checking the proxy:", proxy)
        res = requests.get(link, proxies=proxy, timeout=5)
        soup = BeautifulSoup(res.text, "html5lib")
        try:
            product_name = soup.select_one("#productTitle").get_text(strip=True)
        except Exception:
            product_name = ""

        return product_name

    except Exception:
        """the following line when hit produces new proxy and remove the bad one that passes through process_proxy(proxy)"""
        skip_proxy()
        return parse_product(link)


if __name__ == '__main__':
    for url in linklist:
        result = parse_product(url)
        print(result)

我还建议更改最后一个 try/ except 子句以捕获RequestException代替Exception.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

无法修改函数以独立工作而不是依赖于返回的结果的相关文章

从所有数据帧列中删除子字符串

我有一个单词列表大约 1000 个单词我称之为负面单词 CAST ARTICLES SANITARY JAN CLAUSES SPECIAL ENDORSEMENT 我很快就会用这个单词列表制作一个数据框我还有一个数据框看起来像 F
App Engine 上的 Django 与 webapp2 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何同时运行多个功能[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有以下代码 my func1 my func2 my func3 my func4 my func5 是否可以同时计算函数的数据而
如何通过 python 中的函数运行列表？

我试图通过我创建的函数运行我的列表但不断收到错误我不知道出了什么问题温度 F temp f 19 21 21 21 23 功能 def fahrToCelsius tempFahrenheit return tempFahrenhei
动态字段取决于 WTForms 的先前字段

我正在使用 WTForms 制作表格目前我有这个 class UploadForm flask wtf Form fichier wtforms fields FileField u Fichier description wtform
如何用函数记录一个文件？

我有一个带有函数 lib py 但没有类的python 文件每个函数都有以下样式 def fnc1 a b c This fonction does something param a lalala type a str param b
Python speedtest.net，或等效的[关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案是否有一个 Python 库可以实现 SpeedTest net 测试或等效的互联网连接速度测试 GitHub上有一个项目叫速度检查 https gi
获取 Keras model.summary() 作为表

我在 Keras 中创建了相当大的模型我正在用 LaTeX 写一篇关于它的文章为了很好地描述 LaTeX 中的 keras 模型我想用它创建一个 LaTeX 表我可以手动实现它但我想知道是否有任何更好的方法来实现这一点我四处
如何知道python运行脚本的路径？

sys arg 0 给我 python 脚本例如 python hello py 返回 sys arg 0 的 hello py 但我需要知道 hello py 位于完整路径中的位置我怎样才能用Python做到这一点 os path a
列表推导式和 for 循环中的 Lambda 表达式[重复]

这个问题在这里已经有答案了我想要一个 lambda 列表作为一些繁重计算的缓存并注意到这一点 gt gt gt j for j in lambda i for i in range 10 9 9 9 9 9 9 9 9 9 9 Alt
使用会话在 Django 中将文件从一个视图传递到另一个视图

我当前的工作项目要求我允许用户上传各种格式的文件目前仅处理 CSV 格式然后使用包含的数据来绘制图表Pandas http pandas pydata org 图书馆我决定将图形渲染到模板的最简单方法是为图形创建特定视图然后将图像从
使用 python 脚本更改 shell 中的工作目录

我想实现一个用户态命令它将采用其参数之一路径并将目录更改为该目录程序完成后我希望 shell 位于该目录中所以我想实施cd命令但需要外部程序可以在 python 脚本中完成还是我必须编写 bash 包装器 Example t
使用 ElementTree 在 python 中解析 xml

我对 python 很陌生我需要解析一些脏的 xml 文件这些文件需要先清理我有以下 python 代码 import arff import xml etree ElementTree import re totstring wit
Python：导入模块一次然后与多个文件共享

我有如下文件 file1 py file2 py file3 py 假设这三个都使用 lib7 py lib8 py lib9 py 目前这三个文件中的每一个都有以下行 import lib7 import lib8 import lib
AttributeError: 'super' 对象没有属性 '__getattr__' 在 Kivy 中使用带有多个 kv 文件的 BoxLayout 时出错

我很清楚这个问题已经被问过好几次了但尝试以下解决方案后 Python Kivy AttributeError 尝试获取 self ids 时 super 对象没有属性 getattr https stackoverflow com qu
在Python中使用pil读取tif图像时出现值错误？

我必须读取尺寸的tif图像2200 2200并输入 uint16 我将 PIL 库与 anaconda python 一起使用如下所示 from PIL import Image img Image open test tif img i
如何在引发异常时将变量传递给异常并在异常时检索它？

现在我只有一个空白的异常类我想知道如何在引发变量时给它一个变量然后在 try except 中处理它时检索该变量 class ExampleException Exception pass 为其构造函数提供一个参数将其存储为属性然后
如何将两列 pandas Dataframe 移动并堆叠为一列？

我有一个下面提到的数据框 ETHNIC SEX USUBJID 0 HISPANIC OR LATINO F 16 1 HISPANIC OR LATINO M 8 2 HISPANIC OR LATINO Total 24 3 NOT H
SQLAlchemy 与 count、group_by 和 order_by 使用 ORM

我有几个函数需要使用 count group by 和 order by 进行一对多连接我使用 sqlalchemy select 函数生成一个查询该查询将返回一组 id 然后我对其进行迭代以对各个记录执行 ORM 选择我想知道是否有
matlab中求和函数句柄

Hi我试图对两个函数句柄求和但它不起作用例如 y1 x x x y2 x x x 3 x y3 y1 y2 我收到的错误是对于 function handle 类型的输入参数未定义函数或方法 plus 这只是一个小例子实际上我实际

随机推荐

Dojo MVC 的布局实现

我从头开始了一个道场项目从一开始就尝试使用良好的实践我对 dojo 工具包非常陌生所以我正在浏览大量文档和示例这些文档和示例给我留下了很多很酷的东西但无法了解如何为未来的开发或附加组件实现架构我在网上搜索并找到了这个dojo
数据集和渲染器不应为空，并且在 AChartEngine 中应具有相同数量的系列

我使用多 Y 轴图来绘制点我有 1 X 轴 2 Y1 轴 3 Y2 轴 a 最初我用来在Y1轴高度上绘制5系列线在Y2轴上绘制相同的5系列线重量两者都相对于x轴这里不存在问题这些系列线是标准线用于每次计算 b 现在如果用
从打字稿接口生成 swagger 文档

我在用着swager jsdoc https github com Surnet swagger jsdoc记录应用程序的所有 DTO 我想知道是否有任何方法可以从打字稿接口自动生成 swagger 文档我的项目中有很多这样的东西还有很
C# 锁定 SQL Server 表的方法

我有一个 C 程序需要对 SQL Server 表执行一组批量更新 20k 由于其他用户可以通过内联网网站一次更新一条记录因此我们需要构建具有锁定表功能的C 程序一旦表被锁定以防止其他用户进行任何更改搜索我们将需要执行请求的更新
除了早期的 .NET 框架版本之外，Visual Studio 还可以定位早期的 C# 语法吗？

简单的部分使用下拉列表将 Visual Studio 2010 项目中的 NET 2 0 框架作为目标困难的部分是否可以针对特定的语法版本例如var s hello world 在 VS2008 及以上版本中是有效的语法糖但在 V
HTTP 请求从 Web 服务器分派到 CGI/FastCGI 进程

为了更好地了解 Web 应用程序中 HTTP 请求的处理方式 Apache 等 Web 服务器如何将请求分派到其虚拟主机之一无论框架 Rails PHP Java 如何最初执行的程序是什么如果有人能列出以 Rails 为例的步骤据我
Android 和 SQLite：何时使用分号结束语句？

如果您正在使用rawQuery or execSQL Android 上的 SQLite 方法什么时候应该使用分号来结束语句 On 本教程 http www vogella com articles AndroidSQLite artic
您可以从多个线程访问单个 std::unique_lock 吗？

我在概念化如何unique lock应该是跨线程操作我尝试制作一个快速示例来重新创建我通常会使用的东西condition variable for include
使用 ng-repeat 时默认选中单选按钮

我一直想使用 ng repeat 从屏幕上显示的单选按钮列表中签出一个单选按钮但我的代码不起作用这就是我正在做的 div class clubRole div div div
CI for Qt 应用程序：使用不同的 Qt 版本进行构建

我使用 Travis CI 为我的简单 Qt 应用程序进行持续集成我的 travis yml 文件看起来像这样基于这个要点 https gist github com jreese 6207161 language cpp before
如何在 C# 中获取应用程序设置的名称？

在Visual C 的应用程序设置中我们可以创建一系列具有特定Name Type Scope和Value的设置我可以通过代码访问该值 string color Myproject Properties Settings Default
比较 Go 模板中的两个变量

在我传递给模板的数据中我有两个变量Type and Res Type我想比较为我的选择字段预先选择一个选项为了说明我的问题我创建了这个简化版本 package main import bufio bytes html template
python 中的交互式输入

以下是我需要执行的操作的说明你要编写一个完整的程序获取三段数据然后对它们进行处理这三条信息是布尔值字符串和整数程序的逻辑是这样的如果布尔值为 True 则打印字符串两次一次带双引号一次不带否则打印两倍的数字这是我到目前
动态 HTML 到 PDF [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我需要能够将动态 HTML 通过 javascript 在页面加载时呈现的 html 转换为 PDF 我
从 WiX 提升的安装程序运行未提升的自定义操作

我正在尝试弄清楚如何从提升的 WiX 安装设置程序运行自定义操作 WiX 生成的 msi 文件由 DotNetInstaller 执行在 WiX 中我有一个 Package 部分其中 InstallScope 设置为 perMachi
Ajax 调用在 IE8 中不起作用

我正在阅读几篇关于此的文章并对我的代码进行了一些更改但没有成功任何人都可以调查一下看看这里发生了什么或者也许是另一种方法来完成我需要的事情使用 ziptastic 通过邮政编码检索城市州该代码在 Chrome 中运行良好 h
__del__ 在程序结束时

假设有一个程序在运行时其中有几个对象程序结束时是否调用每个对象的 del 方法如果是的话我可以做这样的事情 class Client del self disconnect from server 有许多潜在的困难 http doc
从非托管 C++ 创建 DLL

我目前有一个用非托管 C 编写的控制台应用程序源代码由一个入口点组成main以及其他一些功能我需要从此代码创建一个 DLL 以便我可以从其他项目特别是托管 C 使用它另一个问题我是否必须为此目的编写一个包装类由于我对托管非托管
如何使用 FastAPI 返回 HTMLResponse

是否可以在端点显示 HTML 文件例如用户正在访问的主页是的 FastAPI 可能有HTMLResponse 您可以返回一个HTMLResponse from fastapi import FastAPI from fastapi re
无法修改函数以独立工作而不是依赖于返回的结果

我用 python 编写了一个脚本在向某些链接发送请求时使用代理以便从那里解析产品名称我目前的尝试完美地完成了这项工作这个功能parse product 完全依赖于返回的结果代理以便以正确的方式重用相同的代理我正在尝试修改pa

无法修改函数以独立工作而不是依赖于返回的结果

无法修改函数以独立工作而不是依赖于返回的结果 的相关文章

随机推荐

热门标签

无法修改函数以独立工作而不是依赖于返回的结果的相关文章