Scrapy Splash不会执行lua脚本

2024-03-04

我遇到了一个问题，我的 Lua 脚本拒绝执行。 ScrapyRequest 调用返回的响应似乎是 HTML 正文，而我期待的是文档标题。我假设 Lua 脚本从未被调用，因为它似乎对响应没有明显影响。我已经翻阅了很多文档，但似乎不太明白这里缺少什么。有没有人有什么建议？

from urlparse import urljoin

import scrapy
from scrapy_splash import SplashRequest


GOOGLE_BASE_URL = 'https://www.google.com/'
GOOGLE_QUERY_PARAMETERS = '#q={query}'
GOOGLE_SEARCH_URL = urljoin(GOOGLE_BASE_URL, GOOGLE_QUERY_PARAMETERS)

GOOGLE_SEARCH_QUERY = 'example search query'


LUA_SCRIPT = """
function main(splash)
    assert(splash:go(splash.args.url))
    return splash:evaljs("document.title")
end
"""

SCRAPY_CRAWLER_NAME = 'google_crawler'
SCRAPY_SPLASH_ENDPOINT = 'render.html'
SCRAPY_ARGS = {
    'lua_source': LUA_SCRIPT
}


def get_search_url(query):
    return GOOGLE_SEARCH_URL.format(query=query)


class GoogleCrawler(scrapy.Spider):
    name=SCRAPY_CRAWLER_NAME
    search_url = get_search_url(GOOGLE_SEARCH_QUERY)

    def start_requests(self):

        response = SplashRequest(self.search_url,
            self.parse, endpoint=SPLASH_ENDPOINT, args=SCRAPY_ARGS)

        yield response


    def parse(self, response):
        doc_title = response.body_as_unicode()
        print doc_title

SplashRequest 的“endpoint”参数必须为“execute”才能执行 Lua 脚本；示例中为“render.html”。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Scrapy

ScrapySplash

splashjsrender

Scrapy Splash不会执行lua脚本的相关文章

为什么我的 Scrapy 中的输入/输出处理器不工作？

我正在努力追随本教程 http doc scrapy org en 1 1 intro tutorial html 我想要我的desc字段是标准化为单个空格且大写的单个字符串 dmoz spider py import scrapy fro
好斗的。开始爬行后如何更改蜘蛛设置？

我无法更改解析方法中的蜘蛛设置但这绝对是一个办法例如 class SomeSpider BaseSpider name mySpider allowed domains example com start urls http examp
使用scrapy到json文件只得到一行输出

好吧我对一般编程很陌生并且具体使用 Scrapy 来实现此目的我编写了一个爬虫来从 pinterest com 上的 pin 获取数据问题是我以前从我正在抓取的页面上的所有引脚获取数据但现在我只获取第一个引脚的数据我认为问题出在
scrapy中如何处理302重定向

我在抓取网站时收到来自服务器的 302 响应 2014 04 01 21 31 51 0200 ahrefs h DEBUG Redirecting 302 to
如何使用 BeautifulSoup4 获取
标记之前的所有文本

我正在尝试为我的应用程序抓取一些数据我的问题是我需要一些 HTML 代码如下 tr td This a class tip info href blablablablabla is a first a sentence br This a
抓取多个帐户，即多次登录

我可以成功抓取单个帐户的数据我想在一个网站上抓取多个帐户这意味着多次登录如何管理登录注销您可以在每个帐户会话中使用多个 cookiejar 并行抓取多个帐户请参阅 cookiejar 请求元密钥http doc scrapy o
无法解析 RSS 提要

我正在尝试使用 python 中的 feedparser 从 url 解析 RSS 提要 gt gt gt import feedparser gt gt gt d feedparser parse http www shop inonit
在 scrapy 中将基本 url 与结果 href 结合起来

下面是我的蜘蛛代码 class Blurb2Spider BaseSpider name blurb2 allowed domains www domain com def start requests self yield self ma
如何从网站中抓取动态内容？

所以我使用 scrapy 从亚马逊图书部分抓取数据但不知何故我知道它有一些动态数据我想知道如何从网站中提取动态数据到目前为止我已经尝试过以下方法 import scrapy from items import AmazonsItem
Scrapy - 使用 TwistedScheduler 时出现 ReactorAlreadyInstalledError

我有以下 Python 代码来启动 APScheduler TwistedScheduler cronjob 来启动蜘蛛使用一只蜘蛛不是问题而且效果很好然而使用两个蜘蛛会导致错误 twisted internet error Rea
加快网络抓取速度

我正在使用一个非常简单的网络抓取工具抓取 23770 个网页scrapy 我对 scrapy 甚至 python 都很陌生但设法编写了一个可以完成这项工作的蜘蛛然而它确实很慢爬行 23770 个页面大约需要 28 小时我看过scr
如何使用XPath选择非空段落？

我想要抓取的网页具有类似的结构每个都有一个段落是一个问题一个段落是一个答案我想抓取每个问题和答案并将它们存储在两个项目中问题是在某些页面上问题和答案分别是 xxx p 1 and xxx p 2 但在其他页面上 xxx p 1
Scrapy：AttributeError：“列表”对象没有属性“iteritems”

这是我关于堆栈溢出的第一个问题最近想用linkedin 刮刀 https github com junks linkedInScraper 所以我下载并指示 scrapycrawl linkedin com 并收到以下错误消息供您参考
Scrapy仅抓取网站的一部分

您好我有以下代码来扫描给定站点中的所有链接 from scrapy item import Field Item from scrapy contrib spiders import CrawlSpider Rule from scrap
XPath：通过当前节点属性选择当前和下一个节点的文本

首先这是从我之前的问题 https stackoverflow com questions 5202187 xpath select current and next nodes text by current node attribut
如何更改 scrapy view 命令使用的浏览器？

如何更改 scrapy shell 中 view response 命令使用的浏览器我的机器上默认使用 safari 但我希望它使用 chrome 因为 chrome 中的开发工具更好 As eLRuLL https stackoverf
scrapy获取同一个类的第n个子文本

我附上了一张照片我面临的问题是获取同一类的第一个元素我想得到 adxHeader gt adxExtraInfo 1st one gt adxExtraInfoPart 1st one gt a text 我编写了以下代码但不起作用任
Scrapy 蜘蛛无法工作

由于到目前为止没有任何效果我开始了一个新项目 python scrapy ctl py startproject Nu 我完全按照教程操作创建了文件夹和一个新的蜘蛛 from scrapy contrib spiders import
对于 scrapy/selenium 有没有办法返回到上一页？

我本质上有一个 start url 其中包含我的 javascript 搜索表单和按钮因此需要 selenium 我使用 selenium 在选择框对象中选择适当的项目然后单击搜索按钮接下来的页面我做了一些 scrapy 魔法但是
如何使用scrapy获取某人的关注者以及Instagram照片下的评论？

正如您所看到的以下 json 包含关注者数量以及评论数量但是我如何访问每个评论中的数据以及关注者 ID 以便我可以爬取它们 logging page id profilePage 20327023 user biography null

随机推荐

使用 CreateProcessAsUser 启动 url

最近我遇到了一个问题我需要从提升的应用程序打开网页我需要以非提升方式打开浏览器所以我环顾四周发现这个解决方案 https stackoverflow com a 287072 127602 这肯定会解决我的问题除了CreatePr
windows批处理文件eq此时出乎意料

我正在编写一个 Windows 批处理脚本来安装服务首先我需要查找该服务是否已经存在如果服务存在它必须检查状态如果状态正在运行则必须停止并删除服务这是我的代码 test bat 我正在从命令行运行它 for F tokens
操作栏中的自定义主页图标 Sherlock

我正在尝试使用设置主页图标的自定义图标ActionBarSherlock 库 http actionbarsherlock com 我尝试使用设置自定义布局abHomeLayout我的自定义主题中的属性但这对我不起作用唯一的方法如何设
FieldValue.increment 不起作用，但添加“操作数”

我正在使用 firebase 数据库和一个带有新功能的简单函数FieldValue increment https firebase google com docs reference js firebase firestore Field
在 JavaScript 中执行继承

现在虽然我知道您不能像在 C 中那样执行继承但我在互联网上看到它提到这是可能的如果无法使用纯 JavaScript 代码那么是否可以使用Ext JS http en wikipedia org wiki Ext JS如果是这样怎么办
伊莎贝尔的文件准备

我想获得与相关的 LaTeX 代码这个理论 https github com rjraya Isabelle blob master curves Hales thy 以前的答案仅提供文档的链接让我描述一下我做了什么我去了目录Hales
Eclipse PDT 插件安装

我尝试在 Eclipse 中安装 PDT 插件但出现错误 Cannot complete the install because one or more required items could not be found Software
Firebase 身份验证 - 过期的 api 密钥

我正在开发一个无服务器客户端应用程序它使用 Firebase 身份验证和 Google 的其他服务一切都很顺利突然 FB 登录身份验证停止工作当尝试登录用户时我会收到一个 400 BADREQUEST 其正文如下 error co
使用 Socket.IO 发送数据的频率是多少？

我正在创建一个 Web 应用程序需要频繁地将少量数据每个套接字 3 个整数值从服务器发送到客户端并且我想看看是否有使用更新客户端的最大频率套接字IO https socket io 我希望能够实现至少 50 个套接字连接每个连接每
在Delphi XE2上使用MSBuild编译运行时包时出现编译错误

我正在将我们的构建服务器 Jenkins 升级到Delphi XE2 编译运行时包时出现以下错误 ComponentsR vrc 61 error RC2135 file not found ComponentsR Icon4 ico 此运
drawViewHierarchyInRect:afterScreenUpdates: 延迟其他动画

在我的应用程序中我使用drawViewHierarchyInRect afterScreenUpdates 为了获得我视野中的模糊图像使用AppleUIImage类别UI图像效果 https developer apple com do
如何检测 WebView 页面何时尝试关闭？

我有一个 WebView 我正在其中加载 facebook sharer php 页面此页面没有任何形式的确认它只是在用户共享或取消后关闭窗口由于它被加载到网络视图中因此本身没有什么可以关闭的因此我需要检测尝试关闭的窗口并对
预压缩的 gzip 在 Chrome 上崩溃，为什么？

我在我的网站上提供预压缩的 CSS 和 JS 文件以及 IE6 8 和 FF 与我的 htaccess 文件完美配合 Compressed files RewriteCond HTTP Accept Encoding gzip AddEn
将库从 Java 移植到 Python

我即将将一个小型库从 Java 移植到 Python 并需要一些建议小型几千行代码我研究了一点 Java 代码并注意到两种语言中常见的一些设计模式然而肯定存在一些仅适用于 Java 的习惯用法单例等这些习惯用法在 Pytho
传单测量转换的精确度

map layerPointToLatLng map latLngToLayerPoint L latLng 40 687 73 9035 结果是纬度 40 686886382151116 经度 73 90228271484375 不精确
为什么我需要在setup.py中包含子包

我有一个名为的 python 包mltester其中包含两个子包 actions dialogs 和一个主脚本ml tester py 结构如下
Application Insights 显示在实时指标中，但不显示在日志分析中

So I created a Class library that configures microservices s Application Insights These are the Application Insights con
在 SQL Server 2008 中使用 select where 查找一列上的重复项

我试图从表中选择一列中有重复项的行但也根据另一列限制行它似乎工作不正常 select Id Terms from QueryData where Track Y and Active Y group by Id Terms having
在 Solr 6.6 中配置 shardsWhitelist

需要帮助在 Solr 6 6 中配置 shardsWhitelist 我在 Solr xml 中有以下行
Scrapy Splash不会执行lua脚本

我遇到了一个问题我的 Lua 脚本拒绝执行 ScrapyRequest 调用返回的响应似乎是 HTML 正文而我期待的是文档标题我假设 Lua 脚本从未被调用因为它似乎对响应没有明显影响我已经翻阅了很多文档但似乎不太明白这里缺少

Scrapy Splash不会执行lua脚本

Scrapy Splash不会执行lua脚本 的相关文章

随机推荐

热门标签

Scrapy Splash不会执行lua脚本的相关文章