Scrapy FakeUserAgentError：获取浏览器时发生错误

2024-05-12

我使用 Scrapy FakeUserAgent 并在我的 Linux 服务器上不断收到此错误。

Traceback (most recent call last):
  File "/usr/local/lib64/python2.7/site-packages/twisted/internet/defer.py", line 1299, in _inlineCallbacks
    result = g.send(result)
  File "/usr/local/lib/python2.7/site-packages/scrapy/core/downloader/middleware.py", line 37, in process_request
    response = yield method(request=request, spider=spider)
  File "/usr/local/lib/python2.7/site-packages/scrapy_fake_useragent/middleware.py", line 27, in process_request
    request.headers.setdefault('User-Agent', self.ua.random)
  File "/usr/local/lib/python2.7/site-packages/fake_useragent/fake.py", line 98, in __getattr__
    raise FakeUserAgentError('Error occurred during getting browser')  # noqa
FakeUserAgentError: Error occurred during getting browser

当我同时运行多个蜘蛛时，我在 Linux 服务器上不断收到此错误。这个错误在我自己的笔记本电脑上很少发生。我应该怎么做才能避免这种情况？我需要提高内存还是其他什么？服务器的规格为 512MB RAM 和 1 个 vCPU。

我不确定 RAM 以及为什么错误只发生在具有最低规格的 Linux 服务器上。我通过使用解决了它fake-useragent后备功能。可悲的是，scrapy-fake-useragent没有提供任何方便设置的功能，所以我必须重写中间件功能middlewares.py像这样：

from fake_useragent import UserAgent
from scrapy_fake_useragent.middleware import RandomUserAgentMiddleware

class FakeUserAgentMiddleware(RandomUserAgentMiddleware):
    def __init__(self, crawler):
        super(FakeUserAgentMiddleware, self).__init__(crawler)
        # If failed to get random user agent, use the most common one
        self.ua = UserAgent(fallback='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36')
        self.per_proxy = crawler.settings.get('RANDOM_UA_PER_PROXY', False)
        self.ua_type = crawler.settings.get('RANDOM_UA_TYPE', 'random')
        self.proxy2ua = {}

然后我激活中间件settings.py像这样：

DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
    # 'scrapy_fake_useragent.middleware.RandomUserAgentMiddleware': 400, # disable the original middleware
    'myproject.middlewares.FakeUserAgentMiddleware': 400,
    # omitted
}

UPDATE

尝试将 fake-useragent 更新到版本 0.1.5。我使用的是 0.1.4，升级后，问题从根本上消失了，而不是通过使用后备。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Scrapy FakeUserAgentError：获取浏览器时发生错误的相关文章

批量删除文件名中包含 BASH 中特殊字符的子字符串

我的目录中有一个文件列表 opencv calib3d so2410 so opencv contrib so2410 so opencv core so2410 so opencv features2d so2410 so opencv
Flask 和 uWSGI - 无法加载应用程序 0 (mountpoint='')（找不到可调用或导入错误）

当我尝试使用 uWSGI 启动 Flask 时出现以下错误我是这样开始的 gt cd gt root localhost uwsgi socket 127 0 0 1 6000 file path to folder run py ca
如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
Python 多处理示例不起作用

我正在尝试学习如何使用multiprocessing但我无法让它发挥作用这是代码文档 http docs python org 2 library multiprocessing html from multiprocessing imp
在内核代码中查找函数的最佳方法[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我开始浏览内核代码遇到的一件事是如何跟踪函数调用结构定义等有没有一种好的方法可以快速跳转到函数定义并退出我尝试过 Source N
找不到包“gdk-pixbuf-2.0”

我正在尝试在 Amazon Linux 发行版实例上构建 librsvg 我已经通过 yum 安装了大部分依赖项其中一些在实例上启用的默认 yum 存储库中不可用因此必须从头开始构建它们我已经走了很远但还停留在最后一点跑步时sud
SQL Alchemy 中的 NULL 安全不等式比较？

目前我知道如何表达 NULL 安全的唯一方法 SQL Alchemy 中的比较其中与 NULL 条目的比较计算结果为 True 而不是 NULL 是 or field None field value 有没有办法在 SQL Alchem
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
keras加载模型错误尝试将包含17层的权重文件加载到0层的模型中

我目前正在使用 keras 开发 vgg16 模型我用我的一些图层微调 vgg 模型拟合我的模型训练后我保存我的模型model save name h5 可以毫无问题地保存但是当我尝试使用以下命令重新加载模型时load mod
python 集合可以包含的值的数量是否有限制？

我正在尝试使用 python 设置作为 mysql 表中 ids 的过滤器 python集存储了所有要过滤的id 现在大约有30000个这个数字会随着时间的推移慢慢增长我担心python集的最大容量它可以包含的元素数量有限制吗您最大
Pandas Dataframe 中 bool 值的条件前向填充

问题如何转发 fill boolTruepandas 数据框中的值如果是当天的第一个条目 True 到一天结束时请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
有没有一种快速方法可以从 Jar/war 中删除文件，而无需提取 jar 并重新创建它？

所以我需要从 jar war 文件中删除一个文件我希望有类似 jar d myjar jar file I donot need txt 的内容但现在我能看到从 Linux 命令行执行此操作的唯一方法不使用 WinRAR Winzip
Python - 按月对日期进行分组

这是一个简单的问题起初我认为很简单而忽略了它一个小时过去了我不太确定所以我有一个Python列表datetime对象我想用图表来表示它们 x 值是年份和月份 y 值是此列表中本月发生的日期对象的数量也许一个例子可以更好地证明这
Python - 在窗口最小化或隐藏时使用 pywinauto 控制窗口

我正在尝试做的事情我正在尝试使用 pywinauto 在 python 中创建一个脚本以在后台自动安装 notepad 隐藏或最小化 notepad 只是一个示例因为我将编辑它以与其他软件一起使用 Problem 问题是我想在安装程序
从 pygame 获取 numpy 数组

我想通过 python 访问我的网络摄像头不幸的是由于网络摄像头的原因 openCV 无法工作 Pygame camera 使用以下代码就像魅力一样 from pygame import camera display camera in
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
设置 torch.gather(...) 调用的结果

我有一个形状为 n x m 的 2D pytorch 张量我想使用索引列表来索引第二个维度可以使用 torch gather 完成然后然后还设置新值到索引的结果 Example data torch tensor 0 1 2 3 4
如何使用 JSch 将多行命令输出存储到变量中

所以我有一段很好的代码我很难理解它允许我向我的服务器发送命令并获得一行响应该代码有效但我想从服务器返回多行主要类是 JSch jSch new JSch MyUserInfo ui new MyUserInfo String
FileOutputStream.close() 中的设备 ioctl 不合适

我有一些代码可以使用以下命令将一些首选项保存到文件中FileOutputStream 这是我已经写了一千遍的标准代码 FileOutputStream out new FileOutputStream file try BufferedOu
Python：元类属性有时会覆盖类属性？

下面代码的结果让我感到困惑 class MyClass type property def a self return 1 class MyObject object metaclass MyClass a 2 print MyObject

随机推荐

如何在主图区域之外的 ggplot2 中添加多个标题

我想为页脚添加两个标题但 ggplot 似乎只需要 1 是否有解决方法可以将注释或 geom text 添加到左下角和右下角 library ggplot2 p lt ggplot mtcars aes x wt y mpg geom p
自动创建带有文件输出的目录[重复]

这个问题在这里已经有答案了假设我想制作一个文件 filename foo bar baz txt with open filename w as f f write FOOBAR 这给出了一个IOError since foo bar不存
Lodash _.hasIntersection？

我想知道两个或多个数组是否有共同的项目但我不在乎这些项目是什么我知道 lodash 有一个 intersection方法但我不需要它来遍历每个数组的每个项目相反我需要类似的东西 hasIntersection一旦找到第一个常见的出
如何使用 Hibernate Session.doWork(...) 进行保存点/嵌套事务？

我正在使用 JavaEE JPA 托管事务与 Oracle DB 和 Hibernate 并且需要实现某种嵌套事务据我所知此类事情不受开箱即用的支持但我应该能够为此目的使用保存点正如建议的https stackoverflow co
为“facet_wrap”中的每列创建边框和标题

我想在每个方面周围放置带有标签和标题的黑色边框facet wrap 与此类似的东西样本数据 library tidyverse mtcars gt mutate gear factor gear levels c 4 3 5 gt ggp
如何以require格式打印页面的gridview

我有一个来自数据库的 gridview 问题是当用户单击打印按钮时我想打印整个页面 gridview 的每一行以给定格式打印为 1 A4 尺寸页面上的 3 行 gridview Printing format 如果你想使用 javascr
如何更改数据表中的少数列名称

我有一个包含 10 列的数据表 town tc one two three four five six seven total 需要生成我正在使用的列一到总计的平均值 DTmean lt DT lapply SD mean by t
如何将类组件中的 props 发送到功能组件？

我是 ReactJS 的初学者需要知道如何将一个页面中的 props 值发送到另一个页面道具位于第一页上我可以获取类组件值如何获取另一页中的值提前致谢墙色 jsx import React Component from react
Java8 lambda 是否像匿名类一样维护对其封闭实例的引用？

We know https stackoverflow com questions 5054360 do anonymous classes always maintain a reference to their enclosing in
Mac OS X 中 Bash 脚本中的 SFTP 命令

我需要使用 SFTP 和 SSH 从 Mac 主机将文本文件传输到远程 PC freeSSH 这两个连接在本地网络中那么有没有办法从 Bash 脚本内部运行 SFTP 命令使用提供的用户名和密码我已经尝试过一些脚本expect 但我没
如何将事件插入为 - Out Office

我目前正在使用 Google Calendar API 并尝试在我的谷歌日历中插入新的外出事件我使用以下代码插入事件 client getClient service new Google Service Calendar clien
为什么 strtotime('a') 返回时间？

我正在 PHP 5 3 中循环遍历 CSV 文件并检查日期我一直在使用 strtotime 它运行良好除了我有一个包含 1 或 2 个字符代码的字段任何单个字符代码上的 strtotime 似乎都像我要求 now 一样但如果代码是
在 Python 中通过网络发送对象的最佳方式是什么？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我需要通过网络发送对象我将使用 Twisted 并且我刚刚开始查看它的文档据我所知 python实现套接字的唯一方式是通过文本那么我如何使
在 Woocommerce 的单个产品页面上显示特定的自定义产品属性

我找到了以下代码 https isabelcastillo com woocommerce product attributes functions在产品详细信息页面上显示所有自定义属性具有我需要的特定条形设计代码的工作方式就像一个魅力
Tomcat如何通过IP地址限制访问？

有谁知道Tomcat是否可以通过IP地址限制对某些应用程序的访问例如Apache的 htaccess 你添加一个Valve to the Context in context xml 具体来说 org apache catalina va
$lookup结果中的$match

我有下一个蒙戈代码 db users aggregate match and UserName eq administrator Company CompanyName eq test lookup from companies local
根据产品属性在 Magento 中创建购物车规则

我在一个类别中有产品针有些以 100 支为一包出售有些以 500 支为一包出售盒子中的针数被设置为产品属性我想根据购物车中的针总数应用购物车规则 F x 如果您购买 1000 2000 根针头无论 500 100 包的组合如何
使用 Cucumber Scenario Outline 处理 Excel 电子表格

如果可能的话我试图找到一种更优雅的方法来处理从与 Excel 电子表格行第 n 个相关的 Cucumber Scenario Outline 中调用第 n 个数字目前我正在使用迭代编号来定义要从中提取数据的 Excel 电子表格的
如何将 LEFT JOIN 限制为 SQL Server 中的第一个结果？

我有一些 SQL 几乎可以做我想做的事情我正在使用三个表 Users UserPhoneNumbers 和 UserPhoneNumberTypes 我正在尝试获取用户列表及其电话号码以供导出数据库本身很旧并且存在一些完整性问题我的问
Scrapy FakeUserAgentError：获取浏览器时发生错误

我使用 Scrapy FakeUserAgent 并在我的 Linux 服务器上不断收到此错误 Traceback most recent call last File usr local lib64 python2 7 site pack

Scrapy FakeUserAgentError：获取浏览器时发生错误

UPDATE

Scrapy FakeUserAgentError：获取浏览器时发生错误 的相关文章

随机推荐

热门标签

Scrapy FakeUserAgentError：获取浏览器时发生错误的相关文章