使用deathbycaptcha服务处理Google recaptcha v2时如何控制scrapy中的请求流？

2024-02-02

你好:)我正在使用 python 使用 scrapy 网络爬行框架，抓取网站并使用 Deathbycaptcha 服务解决我在其页面上遇到的验证码。我的下载延迟设置为 30 秒，我只抓取几页来获取基本信息，这样我就不会过多地占用网站带宽或任何其他类型的信息。我将抓取视为在常规浏览器上发生的体验。

那么首先我们来谈谈这些问题。

ISSUE 1（在代码中）我如何让 scrapy 基本上停止创建新请求，或者在解决验证码时过多地弄乱验证码？我尝试了很多不同的方法，但都无济于事，而且我对 scrapy 还很陌生，所以我不太熟悉编辑下载器中间件或 scrapy 引擎代码，但如果这是唯一的方法，那就这样吧但我希望有一个非常简单且有效的解决方案，让验证码完成它的工作，而新的请求根本不会中断它。

ISSUE 2（在代码中）我如何修复这个计时器功能，我认为它与第一个问题有点相关。如果验证码超时而没有解决，那么它永远不会重置captchaIsRunning布尔值并不断不允许验证码再次开始尝试解决。计时器是我尝试解决第一个问题的方法之一，但是......我收到了一个错误。不确定这是否与从其中提取的事实有关threading and timeit在导入声明中，但我认为这没有什么大的区别。谁能指导我修复 Timer 语句的正确方向？

就像我说的，deathbycaptcha API 运行得很好，当它有机会的时候，但 scrapy 请求确实很干扰，我还没有找到这个问题的相关解决方案。再说一次，我还不是一个 scrapy 专家，所以有些事情已经远远超出了我的舒适区，需要推动，但不要太用力，否则我最终会破坏一切 xD 感谢您的帮助，非常感谢！抱歉问这个超长的问题。

不管怎样，该页面可以让你查找几个结果，大约 40-60 个页面后，它会重定向到包含 recaptcha v2 的验证码页面。 Deathbycaptcha 服务有一个用于解决 recaptcha v2 问题的 API，但不幸的是，他们的解决时间有时可能会超过几分钟，这非常令人失望，但它确实发生了。于是我很自然地调整了自己的心态DOWNLOAD_TIMEOUT设置为240秒，以便它有足够的时间来解决验证码，并在此之后继续抓取，以便它不再重定向。我的scrapy设置如下：

CONCURRENT_REQUESTS = 1
DEPTH_LIMIT = 1
DOWNLOAD_DELAY = 30
CONCURRENT_REQUESTS_PER_DOMAIN = 1
CONCURRENT_REQUESTS_PER_IP = 1
DOWNLOAD_TIMEOUT = 240
AUTOTHROTTLE_ENABLED = True
# The initial download delay
AUTOTHROTTLE_START_DELAY = 10
# The maximum download delay to be set in case of high latencies
AUTOTHROTTLE_MAX_DELAY = 60

然后显然是其余的，但我认为这些是我的问题中最重要的。我启用了一个扩展，然后中间件中有一些额外的东西，因为我还在这个文件中使用 docker 和 scrapy-splash。

SPIDER_MIDDLEWARES = {
    'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
}

DOWNLOADER_MIDDLEWARES = {
    'scrapy_splash.SplashCookiesMiddleware': 723,
    'scrapy_splash.SplashMiddleware': 725,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}

MYEXT_ENABLED = False
MYEXT_ITEMCOUNT = 100

EXTENSIONS = {
   'scrapy.extensions.telnet.TelnetConsole': None,
   'scrapy.extensions.spideroclog.SpiderOpenCloseLogging':500,
}

所以我不认为这个东西对验证码或下载器中间件有很大影响......但这里是我的抓取工具中的一些代码：

Python:

import sys
import os
sys.path.append(r'F:\Documents\ScrapyDirectory\scrapername\scrapername\spiders')
import deathbycaptcha
import json
import scrapy
import requests
from datetime import datetime
import math
import urllib
import time
from scrapy_splash import SplashRequest
from threading import Timer
from timeit import Timer

class scrapername(scrapy.Spider):
    name = "scrapername"
    start_urls = []

    global scrapeUrlList
    global charCompStorage
    global captchaIsRunning

    r = requests.get('http://example.com/examplejsonfeed.php')

    myObject = json.loads(r.text)

    #print("Loading names...")
    for o in myObject['objects']:
        #a huge function for creating basically a lot of objects and appending links created from these objects to the scrapeUrlList function

    print(len(scrapeUrlList))
    for url in scrapeUrlList:
        start_urls.append(url[1])
        #add all those urls that just got created to the start_urls list


    link_collection = []

    def resetCaptchaInformation():
        global captchaIsRunning
        if captchaIsRunning:
            captchaIsRunning = False

    def afterCaptchaSubmit(self, response):
        global captchaIsRunning
        print("Captcha submitted: " + response.request.url)
        captchaIsRunning = False

    def parse(self, response):
        global captchaIsRunning
        self.logger.info("got response %s for %r" % (response.status, response.url))

        if "InternalCaptcha" in response.request.url:
        #checks for captcha in the url and if it's there it starts running the captcha solver API
            if not captchaIsRunning:
            #I have this statement here as a deterrent to prevent the captcha solver from starting again and again and 
            #again with every new request (which it does)  *ISSUE 1*
                if "captchasubmit" in response.request.url:
                    print("Found captcha submit in url")
                else:
                    print("Internal Captcha is activated")
                    captchaIsRunning = True
                    t = Timer(240.0, self.resetCaptchaInformation)
                    #so I have been having major issues here not sure why?
                    #*ISSUE 2*
                    t.start()

                    username = "username"
                    password = "password"

                    print("Set username and password")

                    Captcha_dict = {
                    'googlekey': '6LcMUhgUAAAAAPn2MfvqN9KYxj7KVut-oCG2oCoK',
                    'pageurl': response.request.url}

                    print("Created catpcha dict")

                    json_Captcha = json.dumps(Captcha_dict)

                    print("json.dumps on captcha dict:")
                    print(json_Captcha)

                    client = deathbycaptcha.SocketClient(username, password)

                    print("Set up client with deathbycaptcha socket client")

                    try:
                        print("Trying to solve captcha")
                        balance = client.get_balance()

                        print("Remaining Balance: " + str(balance))

                        # Put your CAPTCHA type and Json payload here:
                        captcha = client.decode(type=4,token_params=json_Captcha)

                        if captcha:
                            # The CAPTCHA was solved; captcha["captcha"] item holds its
                            # numeric ID, and captcha["text"] item its a text token".
                            print("CAPTCHA %s solved: %s" % (captcha["captcha"], captcha["text"]))

                            data = {
                                'g-recaptcha-response':captcha["text"],
                            }

                            try:
                                dest = response.xpath("/html/body/form/@action").extract_first()
                                print("Form URL: " + dest)
                                submitURL = "https://exampleaddress.com" + dest
                                yield scrapy.FormRequest(url=submitURL, formdata=data, callback=self.afterCaptchaSubmit, dont_filter = True)

                                print("Yielded form request")

                                if '':  # check if the CAPTCHA was incorrectly solved
                                    client.report(captcha["captcha"])
                            except TypeError:
                                sys.exit()
                    except deathbycaptcha.AccessDeniedException:
                        # Access to DBC API denied, check your credentials and/or balance
                        print("error: Access to DBC API denied, check your credentials and/or balance")
            else:
                pass
        else:
            print("no Captcha")
            #this will run if no captcha is on the page that the redirect landed on
            #and basically parses all the information on the page

非常抱歉所有这些代码，感谢您耐心阅读它。如果您对为什么有些东西在那里有任何疑问，请询问，以便我可以解释。所以验证码确实解决了。这不是问题。当抓取工具运行并且发生许多请求并且遇到 302 重定向时，它会收到 200 响应并抓取页面，检测验证码并开始解决它。然后scrapy发送另一个请求，该请求在验证码页面上获取302重定向、200响应，并检测验证码并尝试再次解决。它多次启动 API 并浪费了我的令牌。因此if not captchaIsRunning:声明是为了阻止这种情况发生。所以这是我现在在遇到验证码时输出的 scrapy 日志，请记住在此之前的一切都很好，运行我的所有解析日志。

杂乱的日志：

2018-07-19 14:10:35 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (302) to <GET https://www.exampleaddress.com/InternalCaptcha?returnUrl=%2fresults%3fname%3dThomas%2520Garrett%26citystatezip%3dLas%2520Vegas%2c%2520Nv> from <GET https://www.exampleaddress.com/results?name=Thomas%20Garrett&citystatezip=Las%20Vegas,%20Nv>
2018-07-19 14:10:49 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.exampleaddress.com/InternalCaptcha?returnUrl=%2fresults%3fname%3dThomas%2520Garrett%26citystatezip%3dLas%2520Vegas%2c%2520Nv> (referer: None)
2018-07-19 14:10:49 [scrapername] INFO: got response 200 for 'https://www.exampleaddress.com/InternalCaptcha?returnUrl=%2fresults%3fname%3dThomas%2520Garrett%26citystatezip%3dLas%2520Vegas%2c%2520Nv'
Internal Captcha is activated
2018-07-19 14:10:49 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www.exampleaddress.com/InternalCaptcha?returnUrl=%2fresults%3fname%3dThomas%2520Garrett%26citystatezip%3dLas%2520Vegas%2c%2520Nv> (referer: None)
Traceback (most recent call last):
  File "F:\Program Files (x86)\Anaconda3\lib\site-packages\scrapy\utils\defer.py", line 102, in iter_errback
    yield next(it)
  File "F:\Program Files (x86)\Anaconda3\lib\site-packages\scrapy_splash\middleware.py", line 156, in process_spider_output
    for el in result:
  File "F:\Program Files (x86)\Anaconda3\lib\site-packages\scrapy\spidermiddlewares\offsite.py", line 29, in process_spider_output
    for x in result:
  File "F:\Program Files (x86)\Anaconda3\lib\site-packages\scrapy\spidermiddlewares\referer.py", line 339, in <genexpr>
    return (_set_referer(r) for r in result or ())
  File "F:\Program Files (x86)\Anaconda3\lib\site-packages\scrapy\spidermiddlewares\urllength.py", line 37, in <genexpr>
    return (r for r in result or () if _filter(r))
  File "F:\Program Files (x86)\Anaconda3\lib\site-packages\scrapy\spidermiddlewares\depth.py", line 58, in <genexpr>
    return (r for r in result or () if _filter(r))
  File "F:\Documents\ScrapyDirectory\scraperName\scraperName\spiders\scraperName- Copy.py", line 232, in parse
    t = Timer(240.0, self.resetCaptchaInformation)
  File "F:\Program Files (x86)\Anaconda3\lib\timeit.py", line 130, in __init__
    raise ValueError("stmt is neither a string nor callable")
ValueError: stmt is neither a string nor callable
2018-07-19 14:10:53 [scrapy.extensions.logstats] INFO: Crawled 63 pages (at 2 pages/min), scraped 13 items (at 0 items/min)
2018-07-19 14:11:02 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (302) to <GET https://www.exampleaddress.com/InternalCaptcha?returnUrl=%2fresults%3fname%3dSamuel%2520Van%2520Cleave%26citystatezip%3dLas%2520Vegas%2c%2520Nv> from <GET https://www.exampleaddress.com/results?name=Samuel%20Van%20Cleave&citystatezip=Las%20Vegas,%20Nv>
2018-07-19 14:11:13 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.exampleaddress.com/InternalCaptcha?returnUrl=%2fresults%3fname%3dSamuel%2520Van%2520Cleave%26citystatezip%3dLas%2520Vegas%2c%2520Nv> (referer: None)
2018-07-19 14:11:13 [scrapername] INFO: got response 200 for 'https://www.exampleaddress.com/InternalCaptcha?returnUrl=%2fresults%3fname%3dSamuel%2520Van%2520Cleave%26citystatezip%3dLas%2520Vegas%2c%2520Nv'
#and then an endless supply of 302 redirects, and 200 response for their crawl
#nothing happens, because the Timer failed, the captcha never solved?
#I'm not sure what is going wrong with it, hence the issues I am having

我仍然需要几周的经验来解决您的问题，但我会尝试使用 RetryMiddleware：

可能在重试代码中添加 302 就足够了：

RETRY_HTTP_CODES
Default: [500, 502, 503, 504, 408]

https://doc.scrapy.org/en/latest/topics/downloader-middleware.html#retry-http-codes https://doc.scrapy.org/en/latest/topics/downloader-middleware.html#retry-http-codes

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用deathbycaptcha服务处理Google recaptcha v2时如何控制scrapy中的请求流？的相关文章

SQLAlchemy 通过关联对象声明式多对多自连接

我有一个用户表和一个朋友表它将用户映射到其他用户因为每个用户可以有很多朋友这个关系显然是对称的如果用户A是用户B的朋友那么用户B也是用户A的朋友我只存储这个关系一次除了两个用户 ID 之外 Friends 表还有其他字段因此
通过最小元素比较对 5 个元素进行排序

我必须在 python 中使用元素之间的最小比较次数来建模对 5 个元素的列表进行排序的执行计划除此之外复杂性是无关紧要的结果是一个对的列表表示在另一时间对列表进行排序所需的比较我知道有一种算法可以通过 7 次比较总是在元素之间
从字符串中删除识别的日期

作为输入我有几个包含不同格式日期的字符串例如彼得在16 45 我的生日是1990年7月8日 On 7 月 11 日星期六我会回家 I use dateutil parser parse识别字符串中的日期在下一步中我想从字符串中删除
如何使用 Ansible playbook 中的 service_facts 模块检查服务是否存在且未安装在服务器中？

我用过service facts检查服务是否正在运行并启用在某些服务器中未安装特定的软件包现在我如何知道这个特定的软件包没有安装在该特定的服务器上service facts module 在 Ansible 剧本中它显示以下错误
使用 on_bad_lines 将 pandas.read_csv 中的无效行写入文件

我有一个 CSV 文件我正在使用 Python 来解析该文件我发现文件中的某些行具有不同的列数 001 Snow Jon 19801201 002 Crom Jake 19920103 003 Wise Frank 19880303 l
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
以编程方式停止Python脚本的执行？ [复制]

这个问题在这里已经有答案了是否可以使用命令在任意行停止执行 python 脚本 Like some code quit quit at this point some more code that s not executed sys e
Python pickle：腌制对象不等于源对象

我认为这是预期的行为但想检查一下也许找出原因因为我所做的研究结果是空白我有一个函数可以提取数据创建自定义类的新实例然后将其附加到列表中该类仅包含变量然后我使用协议 2 作为二进制文件将该列表腌制到文件中稍后我重新运行脚本
如何加速Python中的N维区间树？

考虑以下问题给定一组n间隔和一组m浮点数对于每个浮点数确定包含该浮点数的区间子集这个问题已经通过构建一个解决区间树 https en wikipedia org wiki Interval tree 或称为范围树或线段树已经针对一
Flask如何获取请求的HTTP_ORIGIN

我想用我自己设置的 Access Control Allow Origin 标头做出响应而弄清楚请求中的 HTTP ORIGIN 参数在哪里似乎很混乱我在用着烧瓶 0 10 1 以及HTTP ORIGIN似乎是这个的特点之一object
Python 的“zip”内置函数的 Ruby 等价物是什么？

Ruby 是否有与 Python 内置函数等效的东西zip功能如果不是做同样事情的简洁方法是什么一些背景信息当我试图找到一种干净的方法来进行涉及两个数组的检查时出现了这个问题如果我有zip 我可以写这样的东西 zip a b a
python获取上传/下载速度

我想在我的计算机上监控上传和下载速度一个名为 conky 的程序已经在 conky conf 中执行了以下操作 Connection quality alignr wireless link qual perc wlan0 downspe
如何在Python中对类别进行加权随机抽样

给定一个元组列表其中每个元组都包含一个概率和一个项目我想根据其概率对项目进行采样例如给出列表 3 a 4 b 3 c 我想在 40 的时间内对 b 进行采样在 python 中执行此操作的规范方法是什么我查看了 random 模
对年龄列进行分组/分类

我有一个数据框说df有一个柱子 Ages gt gt gt df Age 0 22 1 38 2 26 3 35 4 35 5 1 6 54 我想对这个年龄段进行分组并创建一个像这样的新专栏 If age gt 0 age lt 2 the
如何计算 pandas 数据帧上的连续有序值

我试图从给定的数据帧中获取连续 0 值的最大计数其中包含来自 pandas 数据帧的 id date value 列如下所示 id date value 354 2019 03 01 0 354 2019 03 02 0 354 201
在 Qt 中自动调整标签文本大小 - 奇怪的行为

在 Qt 中我有一个复合小部件它由排列在 QBoxLayouts 内的多个 QLabels 组成当小部件调整大小时我希望标签文本缩放以填充标签区域并且我已经在 resizeEvent 中实现了文本大小的调整这可行但似乎发生了某
使用 Python 的 matplotlib 选择在屏幕上显示哪些图形以及将哪些图形保存到文件中

我想用Python创建不同的图形matplotlib pyplot 然后我想将其中一些保存到文件中而另一些则应使用show 命令然而 show 显示all创建的数字我可以通过调用来避免这种情况close 创建我不想在屏幕上显示的绘图
从列表指向字典变量

假设你有一个清单 a 3 4 1 我想用这些信息来指向字典 b 3 4 1 现在我需要的是一个常规看到该值后在 b 的位置内读写一个值我不喜欢复制变量我想直接改变变量b的内容假设b是一个嵌套字典你可以这样做 reduce di
使用 XMLHTTP 进行抓取会在特定类名处引发错误

我正在尝试使用此代码抓取网站以提取姓名和联系人 Sub Test Dim htmlDoc As Object Dim htmlDoc2 As Object Dim elem As Variant Dim tag As Variant Dim
如何使用 Pycharm 安装 tkinter？ [复制]

这个问题在这里已经有答案了 I used sudo apt get install python3 6 tk而且效果很好如果我在终端中打开 python Tkinter 就可以工作但我无法将其安装在我的 Pycharm 项目上 pip

随机推荐

如何为 std::pair 引用包装器的范围定义 C++ 概念？

请参阅下面的代码也在这里https www godbolt org z hvnvEv1ar https www godbolt org z hvnvEv1ar 如果我取消注释任一约束代码将无法编译rng or pair 我觉得我错过了一
Eclipse：在 GWT 项目的版本控制中存储哪些文件

我正在 Eclipse 中使用 Mercurial 进行 GWT 项目以进行版本控制我应该在版本控制下存储哪些文件或者也许更简洁地说我应该哪些文件not存储因为它们要么是 GWT 的一部分要么是构建过程的工件我正在使用 Ecl
使用 if(isset($_POST['submit'])) 在脚本打开时不显示回显不起作用

我的方法有点问题if isset POST submit 代码我想要的是一些回声和一个表格当脚本打开时不会出现但我确实希望它在单击表单的提交按钮时显示问题是当我包括if isset POST submit 函数当我单击提交按钮时
如何将 microbit 与 BLE 连接并监听按钮按下事件？

2021 年 11 月 28 日编辑如果您需要使用蓝牙低功耗将 microbit 连接到计算机并在单击按钮时执行操作直接跳并跟随 ukBaz https stackoverflow com users 7721752 ukbaz的回答
.net 4.0 中 MemoryCache 与 ObjectCache 有何区别？

NET框架4 0有什么区别MemoryCache vs ObjectCache 在哪里使用哪个对象 ObjectCache 是一个抽象类它演示了如何构建一个符合编写 ObjectCache 的人希望您遵守的规则的缓存您不能直接实例化 O
如何在共享主机上设置 cakephp？

这是我用 Cake 无法做到的一件事我已经尝试了几次但无法弄清楚我在 hostgator 上如果有人能指出他们如何设置它高级安装它会有所帮助 Edit 我已阅读文档并收到错误我想我读得还不够好 Edit我刚刚找到这个帖子 ht
Graphics2D：我应该使用 int 版本还是 float 版本？

一些Graphics2D方法例如drawString 有将坐标作为的版本int or float 有什么理由选择其中之一同样我应该使用较新的Shape类例如Rectangle2D 使用浮点坐标或使用Rectangle 将坐标定义为
ffmpeg 中的去隔行

我已按照教程进行操作here http dranger com ffmpeg 将视频文件加载到 C 程序中但帧不是去隔行的据我所知 ffmpeg 可执行文件支持 deinterlace 开关我如何在代码中执行此操作我应该阅读哪些库
如何将按钮名称绑定到内容？

我有一个按钮列表
XSLT 复制所有节点，并按分隔符分割

我正在寻找一个执行以下操作的 xslt 以输入 xml 为例
无法与任何提供的主机建立套接字

我正在努力解决 android 中的文件传输问题我正在使用 smack 4 1 连接到 openfire 服务器我的问题是当我使用 Spark 到 Spark 文件传输时它工作正常但是当我从Spark 到 Android 或 An
如何在 django 自定义身份验证后端访问请求？

我想用 django 的身份验证执行以下操作记录错误的登录尝试在 x 次错误登录尝试后暂时锁定帐户记录成功登录我认为自定义身份验证后端将是解决方案我可以做我想做的大部分事情但我想记录进行尝试的用户的 IP 和 REMOTE HO
Excel Yield 函数的.NET 实现

Excel 的名为分析工具库的插件提供了收益率函数用于计算定期支付利息的证券的收益率函数运行良好并返回正确的数据我的理解是基于迭代的函数在我的代码中实现它并不容易我的问题是有人知道见过 C 最终是其他语言的实现并可以分
在 Groovy 中获取由字符分隔的子字符串

考虑下面的字符串 String names Bharath Vinayak Harish Punith 我想以它仅包含的字符串形式获得输出Bharath 字符串直到第一次出现运算符任何人都可以告诉我我们该怎么做在一般情况下我同意s
Python 列表理解代价高昂

我试图找到列表理解的效率但它看起来比普通函数操作更昂贵有人可以解释一下吗 def squares values lst for x in range values lst append x x return lst def main t
如何在没有 root 访问权限的情况下在本地安装 CPAN 模块（DynaLoader.pm 第 229 行错误）？

不能与其他模块一起使用但举个例子我使用 CPAN 设置安装了 Text CSV XS makepl arg gt q PREFIX lib 当我尝试运行 test pl 脚本时 perl 测试 pl usr bin perl use l
计算n的最佳方法选择k？

评估价值最有效的方法是什么 n choose k 我认为的蛮力方法是找到n k n k 通过单独计算每个阶乘更好的策略可能是根据这个使用DP递归公式 https i stack imgur com Kq3OH png nCk n 1
WHERE IN问题中的SQL占位符，插入字符串失败

作为我工作的一部分我需要编写 SQL 查询来连接到我们的 PI 数据库要生成查询我需要传递一个array标签本质上是主键但这些必须作为字符串插入由于这将是一个模块化查询并用于多个标签因此使用了占位符该查询依赖于 WHERE
OpenGL - ARB 扩展

我使用的是 MacBook Pro 13 英寸 2010 年中并且使用 OpenGL 我注意到库中缺少一些功能我在互联网上找到了有关我的硬件的规格上面写着支持OpenGL 3 3 这很奇怪所以我打印了我的 OpenGL 版本并这
使用deathbycaptcha服务处理Google recaptcha v2时如何控制scrapy中的请求流？

你好我正在使用 python 使用 scrapy 网络爬行框架抓取网站并使用 Deathbycaptcha 服务解决我在其页面上遇到的验证码我的下载延迟设置为 30 秒我只抓取几页来获取基本信息这样我就不会过多地占用网站带宽或任何

使用deathbycaptcha服务处理Google recaptcha v2时如何控制scrapy中的请求流？

使用deathbycaptcha服务处理Google recaptcha v2时如何控制scrapy中的请求流？ 的相关文章

随机推荐

热门标签

使用deathbycaptcha服务处理Google recaptcha v2时如何控制scrapy中的请求流？的相关文章