Python Scrapy：allowed_domains从数据库添加新域

2024-05-20

我需要向 allowed_domains 添加更多域，因此我没有收到“已过滤的异地请求”。

我的应用程序获取从数据库获取的网址，因此我无法手动添加它们。

我试图覆盖蜘蛛init

像这样

 def __init__(self):
        super( CrawlSpider, self ).__init__()
        self.start_urls = []
        for destination in Phpbb.objects.filter(disable=False):
                self.start_urls.append(destination.forum_link)

            self.allowed_domains.append(destination.link)

start_urls 很好，这是我要解决的第一个问题。但allow_domains 没有影响。

我需要更改一些配置才能禁用域检查？我不想要这个，因为我只想要数据库中的那些，但它现在可以帮助我禁用域检查。

thanks!!

'allowed_domains'参数是可选的。首先，您可以跳过它以禁用域过滤

In scrapy/contrib/spidermiddleware/offsite.py您可以为您的自定义域过滤功能覆盖此功能：

def get_host_regex(self, spider):
    """Override this method to implement a different offsite policy"""
    allowed_domains = getattr(spider, 'allowed_domains', None)
    if not allowed_domains:
        return re.compile('') # allow all by default
    domains = [d.replace('.', r'\.') for d in allowed_domains]
    regex = r'^(.*\.)?(%s)$' % '|'.join(domains)
    return re.compile(regex)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

screenscraping

webscraping

Scrapy

Python Scrapy：allowed_domains从数据库添加新域的相关文章

阻止特定 URL 进行测试的最佳方法是什么？

我正在使用 Google Chrome 和 Fiddler 版本 4 4 观察一个网站该页面正在使用 AJAX 来更新其数据我想阻止特定的 URL 以测试如果它不起作用会发生什么阻止 URL 最简单的方法是什么你希望发生什么转到自
避免由于相对 URL 导致的错误请求

我正在尝试使用Scrapy抓取一个网站并且我想要抓取的每个页面的url都是使用这种相对路径编写的 a href en item to scrap html Link a 现在在我的浏览器中这些链接可以工作您可以访问类似的网址http
scrapy：当蜘蛛退出时调用函数

有没有办法在 Spider 类终止之前触发该方法我可以自己终止蜘蛛如下所示 class MySpider CrawlSpider Config stuff goes here def quit self Do some stuff ra
如何从当前项目向 scrapyd 添加新服务

我试图同时运行多个蜘蛛并在 scrapy 中制作了自己的自定义命令现在我尝试通过 srapyd 运行该命令我尝试将其作为新服务添加到我的 scrapd conf 中但它抛出一个错误指出没有这样的模块 Failed to load
打印 scrapy 请求的“响应”

我正在尝试学习 scrapy 在遵循教程的同时我正在尝试进行细微的调整我想简单地从请求中获取响应内容然后我会将响应传递到教程代码中但我无法发出请求并获取响应内容建议就好 from scrapy http import Respon
html 抓取和 CSS 查询

以下库的优点和缺点是什么 PHP 简单 HTML DOM 解析器 http simplehtmldom sourceforge net QP http querypath org phpQuery http code google com
Jsoup - 隐藏的div类？

我正在尝试爬取 div 类但到目前为止我尝试过的一切都失败了我正在尝试抓取元素 a href div class s buttons button s buttons buttonAlt s buttons buttonSlashBac
从动态服务器中抓取 html 列表数据

哈喽大家好抱歉提出转储问题这是我最后的手段我发誓我尝试了无数其他 Stackoverflow 问题不同的框架等但这些似乎没有帮助我有以下问题一个网站显示一个数据列表前面有大量的 div li span 等标签它是一个很大的
AttributeError：“模块”对象没有属性“Spider”

我刚刚开始学习scrapy 所以我遵循scrapy文档 http doc scrapy org en latest intro tutorial html 我刚刚编写了该网站中提到的第一个蜘蛛 import scrapy class Dmo
如何将 Chrome 版本的网页提供给 python？

我试图让用户轻松地从网页输入数字我能想象的最简单的事情就是让他们提供一个 url 和一个与该号码关联的 xpath 然后我的代码可以去抓取数字 xpath 的概念对于非编码人员来说并不为人所知但使用 Chrome 的 Inspect
有没有办法以编程方式下载网页的部分内容，而不是整个 HTML 正文？

我们只需要 nytimes com technology 上的 HTML 文档中的特定元素该页面包含许多文章但我们只想要文章的标题该标题位于如果我们使用 wget cURL 或任何其他工具或某些包例如Python 中的请求 htt
如何抓取 Hype Machine 等网站？

我对网站抓取即它是如何完成的等很好奇特别是我想编写一个脚本来执行网站的任务炒作机 http hypem com 我实际上是一名软件工程本科生四年级但是我们并没有真正涵盖任何 Web 编程因此我对 Javascript RESTF
VBA - HTML 抓取问题

我正在尝试从网站上抓取拍卖数据https www rbauction com heavy equipment auctions https www rbauction com heavy equipment auctions 我当前的尝试是
Scrapy - 如何抓取网站并将数据存储在 Microsoft SQL Server 数据库中？

我正在尝试从我们公司创建的网站中提取内容我在 MSSQL Server 中为 Scrapy 数据创建了一个表我还设置了 Scrapy 并配置了 Python 来抓取和提取网页数据我的问题是如何将Scrapy爬取的数据导出到我本地的M
InterfaceError：连接已关闭（使用 django + celery + Scrapy）

当我在 Celery 任务中使用 Scrapy 解析函数有时可能需要 10 分钟时我得到了这个信息我用姜戈 1 6 5 django celery 3 1 16 芹菜 3 1 16 psycopg2 2 5 5 我也使用了psyc
rvest如何通过id选择特定的css节点

我正在尝试使用 rvest 包从网页中抓取数据简单来说 html 代码如下所示 div class style div
Python Scrapy：“runspider”和“crawl”命令有什么区别？

有人可以解释一下两者之间的区别吗运行蜘蛛 and crawl命令应该在什么情况下使用它们在命令中 scrapy crawl options
等待网页完全加载，然后再使用 python 请求进行抓取

我目前正在尝试从 LinkedIn 上的特定页面抓取数据我有一个能够登录 LinkedIn 的脚本但当我尝试访问包含数据的页面时遇到了障碍当我打电话时requests get data url 我最终得到了 LinkedIn 加载屏幕
无法在 phantomjs 中延迟加载

我正在尝试从链接中抓取一些信息 http www myntra com women sarees nav id 606 http www myntra com women sarees nav id 606 涉及延迟加载下面是我的代码片段
VSCode Settings.json 丢失

我正在遵循教程并尝试将 vscode 指向我为 Scrapy 设置的虚拟工作区但是当我在 VSCode 中打开设置时工作区设置选项卡不在用户设置选项卡旁边我还尝试通过以下方式手动转到文件 APPDATA Code User s

随机推荐

Quartz 不断将其日志放在我的所有日志文件中

我有个问题 Quartz 不断将其日志放在我的所有日志文件中我可以将 Quart 的日志重定向到单独的文件吗这是我的logback xml
为什么不能访问由 vector::reserve 分配的内存

很简单的问题但为什么当你打电话时 std vector
使用实际日期时间和生日以及数据字段在 django 模板中定义年龄

我是 django 的初学者试图显示我的用户群中每个用户的年龄这是我的代码模型 py class Cv models Model author models ForeignKey auth User name models CharF
Spring Boot java.lang.NoClassDefFoundError：javax/servlet/Filter

我用 Spring Boot 1 2 3 开始了一个新项目我收到错误 java lang NoClassDefFoundError javax servlet Filter 渐变依赖项 dependencies compile org s
import static 不带包名

考虑以下简单的代码示例 public class TestStaticImport static enum Branches APPLE IBM public static void doSomething Branches branch
Delphi 中表单分发与其生命周期相关的接口对象的安全方法？

我有一个 Delphi 表单它提供接口对象背后的功能代码的其他部分也通过属于该表单的属性获取引用我无法将接口功能委托给子对象因为太多的功能是由表单上的控件组件提供的我无法使用 TAggregateObject 或 TContai
如何使用 InAppBrowser 打开本地文件以及文件插件中 URL 方案的最新更改

我从服务器获取原始 HTMl 作为 JSON 属性然后使用文件插件在设备文件系统上创建一个新文件文件插件返回文件的绝对路径但经过最近的更改文件插件现在以 URL 方案返回文件位置 cdvfile localhost
如何设置 plt.colorbar 中的刻度数？

当我用颜色条绘制矩阵时颜色条有 10 个刻度由于颜色条必须非常小因此刻度标签会重叠因此我想将刻度数从 10 减少到 5 我不想减小字体大小是否有捷径可寻我不想手动设置刻度 The 最大N定位器 http matplotlib o
了解darknet的yolo.cfg配置文件

我在互联网上搜索过但发现这方面的信息很少我不明白 yolo 中的每个变量值代表什么 cfg文件所以我希望你们中的一些人能够提供帮助我不认为我是唯一遇到这个问题的人所以如果有人知道 2 或 3 个变量请发布它们以便将来需要此类
Smarty 如果 URL 包含

使用 Smarty 标签我想确定 URL 是否包含单词例如 if smarty get page contains product php 我知道 contains 不存在但是我怎样才能轻松地编写类似的东西来实现上述代码呢所有 PHP
如果 CMAKE_RUNTIME_OUTPUT_DIRECTORY 更改，CMake 无法找到测试

我正在使用 CMake 构建我的项目并且尝试为每个模块创建一堆测试套件显然如果我修改变量CMAKE RUNTIME OUTPUT DIRECTORY那么 ctest 找不到要运行的测试并失败我做了一个最小的例子来展示我正在谈论的内容
由于未知类型名称“uint64_t”，Cythonizing 失败

这可能是一个新手问题我无法对简单的 helloworld pyx 教程脚本进行 cythonize 而完全相同的代码可以在 Linux 上运行 print hello world 这是 setup py 脚本 from distutils
为什么改变对象的 [[prototype]] 会降低性能？

来自 MDN 文档standard setPrototypeOf功能 https developer mozilla org en US docs Web JavaScript Reference Global Objects Object
由于语言错误，Itunes Connect 无法提交

Thats all it shows https i stack imgur com 0aZm8 png 我不确定它没有告诉我出了什么问题 it shows its linked to the language https i stack
如何提取 Mercurial 中变更集的所有已更改文件？

直到最近我们一直在网络工作室的所有项目中使用 SVN 并且 Subversive 和 TortoiseSVN 等多个客户端中存在一个非常方便的功能可以提取在某个版本中更改的所有文件 Mercurial 有没有办法做到这一点我不在乎它是
使用 spring jdbc 模板填充结果

我有两节课 class Deptartment int deptid String deptname List
Symfony2：为什么请求传递到受 Symfony2 中 AppCache 影响的 Kernel.Terminate EventListener

在我的 Symfony2 2 应用程序中我使用 onKernelTerminate EventListener 以便我可以在渲染响应后进行一些繁重处理以便用户收到更快的响应时间在我的控制器中我在请求上设置了一个属性以便当事件侦
如何更改运行时中的方法注释值？

我有像这样的控制器 MessageMapping room register SendTo sendTo public Message addUser Payload Message message SimpMessageHeaderAcc
Composer 文件中的 Docker 健康检查

我尝试将新的健康检查集成到我的 docker 系统中但我真的不知道如何以正确的方式进行问题是我的数据库容器需要比启动主应用程序的容器更多的时间来启动和初始化数据库结果主容器无法正确启动导致数据库连接丢失我编写了一个 healt
Python Scrapy：allowed_domains从数据库添加新域

我需要向 allowed domains 添加更多域因此我没有收到已过滤的异地请求我的应用程序获取从数据库获取的网址因此我无法手动添加它们我试图覆盖蜘蛛init 像这样 def init self super CrawlSpide

Python Scrapy：allowed_domains从数据库添加新域

Python Scrapy：allowed_domains从数据库添加新域 的相关文章

随机推荐

热门标签

Python Scrapy：allowed_domains从数据库添加新域的相关文章