使用 Scrapy 和 selenium 抓取网站

2024-02-04

我要抓取 html 内容http://ntry.com/#/scores/named_ladder/main.php http://ntry.com/#/scores/named_ladder/main.php with Scrapy.

但是，由于该网站的Javascript使用和 # ，我想我必须使用Selenium (Python) also.

我想编写自己的代码，但我对编程很陌生，所以我想我需要帮助；

我想先进入 ntry.com，然后移至http://ntry.com/#/scores/named_ladder/main.php http://ntry.com/#/scores/named_ladder/main.php通过单击名为的锚点

<body>
    <div id="wrap">
        <div id="container">
            <div id="content">
                <a href="/scores/named_ladder/main.php">사다리</a>
            </div>
        </div>
    </div>
</body>

然后我想使用以下方法在更改页面上抓取 htmlScrapy.

我怎样才能做一个selenium-混合Scrapy蜘蛛？

我安装了 Selenium，然后加载了 PhantomJS 模块，它运行得很好。

这是你可以尝试的

from selenium import webdriver 
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

class FormSpider(Spider):
    name = "form"

    def __init__(self):

        dcap = dict(DesiredCapabilities.PHANTOMJS)
        dcap["phantomjs.page.settings.userAgent"] = ("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36")

        self.driver = webdriver.PhantomJS(desired_capabilities=dcap, service_args=['--ignore-ssl-errors=true', '--ssl-protocol=any', '--web-security=false'])
        self.driver.set_window_size(1366,768)


    def parse_page(self, response):
            self.driver.get(response.url)
            cookies_list = self.driver.get_cookies()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

selenium

Scrapy

使用 Scrapy 和 selenium 抓取网站的相关文章

类的 IPython 表示

我正在使用我创建的模块尝试 IPython 但它没有显示类对象的实际表示相反它显示类似的内容 TheClass module TheClass name I heavily在这个模块中使用元类我有真正有意义的类表示应该向用户显示是
pandas DataFrame.join 的运行时间是多少（大“O”顺序）？

这个问题更具概念性理论性与非常大的数据集的运行时间有关所以我很抱歉没有一个最小的例子来展示我有一堆来自两个不同传感器的数据帧我需要最终将它们连接成两个very来自两个不同传感器的大数据帧 df snsr1 and df snsr2
我应该使用 Python 双端队列还是列表作为堆栈？ [复制]

这个问题在这里已经有答案了我想要一个可以用作堆栈的 Python 对象使用双端队列还是列表更好元素数量较少还是数量较多有什么区别您的情况可能会根据您的应用程序和具体用例而有所不同但在一般情况下列表非常适合堆栈 append is
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
为什么 web2py 在启动时崩溃？

我正在尝试让 web2py 在 Ubuntu 机器上运行所有文档似乎都表明要在 nix 系统上运行它您需要下载源代码并执行以下操作蟒蛇 web2py py 我抓住了source http www web2py com examples
更好地相当于这个疯狂的嵌套 python for 循环

for a in map for b in map a for c in map b for d in map c for e in map d print a b c d e 上面的代码用于创建图中一定长度的所有路径 map a 表示从
Pycharm 在 os.path 连接上出现“未解析的引用”

将pycharm升级到2018 1 并将python升级到3 6 5后 pycharm报告未解析的引用 join 最新版本的 pycharm 不会显示以下行的任何警告 from os path import join expanduser
矩形函数的数值傅里叶变换

本文的目的是通过一个众所周知的分析傅里叶变换示例来正确理解 Python 或 Matlab 上的数值傅里叶变换为此我选择矩形函数这里报告了它的解析表达式及其傅立叶变换https en wikipedia org wiki Rectan
python的shutil.move()在linux上是原子的吗？

我想知道python的shutil move在linux上是否是原子的如果源文件和目标文件位于两个不同的分区上行为是否不同或者与它们存在于同一分区上时的行为相同吗我更关心的是如果源文件和目标文件位于同一分区上 shutil move
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
Python GTK+ 画布

我目前正在通过 PyGobject 学习 GTK 需要画布之类的东西我已经搜索了文档发现两个小部件似乎可以完成这项工作 GtkDrawingArea 和 GtkLayout 我需要一些基本函数如 fillrect 或 drawline
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该
Spider 必须返回 Request、BaseItem、dict 或 None，已“设置”

我正在尝试从以下位置下载所有产品的图像我的蜘蛛看起来像 from shopclues items import ImgData import scrapy class multipleImages scrapy Spider name m
为什么 csv.DictReader 给我一个无属性错误？

我的 CSV 文件是 200 Service 我放入解释器的代码是 snav csv DictReader open screennavigation csv delimiter print snav fieldnames 200 for
python 中的“槽包装器”是什么？

object dict 和其他地方的隐藏方法设置为这样的
如何以正确的方式为独立的Python应用程序制作setup.py？

我读过几个类似的主题但还没有成功我觉得我错过或误解了一些基本的事情这就是我失败的原因我有一个用 python 编写的应用程序我想在标准 setup py 的帮助下进行部署由于功能复杂它由不同的 python 模块组成但单独
Firebase Firestore：获取文档的生成 ID (Python)

我可以创建一个新文档带有自动生成的 ID 并存储对其的引用如下所示 my data key value doc ref db collection u campaigns add my data 我可以像这样访问数据本身 print d
如何使用 PrimaryKeyRelatedField 更新多对多关系上的类别

Django Rest 框架有一个主键相关字段 http www django rest framework org api guide relations primarykeyrelatedfield其中列出了我的 IDmany to m
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS

随机推荐

PyCharm 中 .pyi 文件的类型注释不适用于动态属性

我的目标是在 Pycharm 编辑器中自动完成在 Python 控制台中它工作正常所使用的参数pytransition模块有关该模块的一些背景信息here https stackoverflow com questions 60195
在 postgresql 中“复制自”期间忽略重复键

我必须将大量数据从文件转储到 PostgreSQL 表中我知道它不支持像 MySql 中那样的忽略替换等网络上几乎所有与此相关的帖子都提出了相同的建议例如将数据转储到临时表然后执行插入选择不存在的地方这在一种情况下没有
创建新的 Rails 操作不起作用？

我有一个控制器应用程序它由一个动作索引组成现在我想添加一个名为购买的新操作 def buy respond to do format format html end end 我在视图中添加了 buy html erb 但是当浏
如何让 grunt-watch 在不同的构建任务下实时重新加载 HTML 更改

我可以通过执行以下操作轻松设置 Grunt 文件以实时重新加载 HTML 和 SCSS 更改 watch options livereload true css files scss scss tasks compass html file
避免 Jinja 的 nl2br 过滤器中出现 Python UnicodeDecodeError

我正在使用 Jinja2 的 nl2br 过滤器它看起来像 import re from jinja2 import environmentfilter Markup escape paragraph re re compile r r
为什么我无法通过 SMTP 远程登录到 gmail？

我尝试连接并使用 telnet 到 gmail 服务进行测试 telnet gmail smtp in l google com 25 然而它说连接到 gmail smtp in l google com 失败无法在端口 25 上打开与
如何在 Swift 中为 NSTextView 设置第一响应者？

编辑在 macOS 项目中我有一个简单的 ViewController 我将其显示为状态项菜单应用程序上的弹出窗口我使用 NSTableView 更改视图文本的文本具体取决于单击的项目我使用的代码与此类似 mainTextFiel
ios如何缓存数据

我从服务器加载 XML 数据包括图像文本并将该数据显示在 iPhone 屏幕上当我其他时间访问该屏幕时如何缓存数据以重新加载该屏幕会更快不需要再次重新加载XML数据谢谢 Use EGOcache https github c
如何将 Node.js 应用程序作为自己的进程运行？

部署 Node js 的最佳方式是什么我有一个 Dreamhost VPS 他们称之为VM https en wikipedia org wiki Virtual machine 并且我已经能够安装 Node js 并设置代理只要我保持
减去oracle中的时间戳返回奇怪的数据

我正在尝试减去两个日期并期望返回一些浮点值但我得到的回报如下 000000000 00 00 07 225000 将值乘以 86400 我想得到秒内的差值会返回更奇怪的值 000000007 05 24 00 000000000 任何想
在 C++ 中我们是否应该更喜欢临时变量而不是用户定义的变量

假设有一个 C 函数 foo 它返回一个布尔值我调用此函数来检查属性的状态或者获取函数调用的结果那么调用此类函数的最佳方式是什么方法一 bool flag foo if flag some code else else some c
片段错误：类型不兼容，需要 android.app.fragment 但找到了 Activity.messagefragment

Override public void onDrawerItemSelected View view int position displayView position private void displayView int posit
如何在 Java 中将 ASCII 字符串转换为 UTF-8 字符串？

如标题所示如何在 Java 中将 ASCII 字符串转换为 UTF 8 字符串 Thanks 编辑我的情况确实是我读取了一个中文字符串当我输出它时它都是乱码我认为问题可能出在编码上那么如何正确地将字符串从乱码转换为正确的语言集
存储或反映变量的“参考水平”

C 中有没有一种方法可以反映变量的指针级别数例如 int a为1级 int b是 2 个级别并且int c是 0 级除了使用typeid并解析从中产生的字符串我问的原因是我正在使用指向成员函数的指针 http www goingw
如何在 SQL Server 中声明数组变量？

我想在存储过程中执行一个查询该查询应该循环所有数组值例如 declare arrayStoreID 1001 2400 2001 5000 for int i 0 i
TreeMap中出现这个空指针异常是由于并发访问造成的吗？

我知道TreeMap https docs oracle com javase 7 docs api java util TreeMap html不是线程安全的我正在尝试将 TreeMap 与并发跳表映射 https docs oracl
在折叠的 Bootstrap 手风琴中启动时，所选下拉菜单的宽度接近于零

当选择的下拉菜单位于 Bootstrap 3 手风琴内部时最初隐藏那么下拉菜单的宽度接近于零展开后如下所示而我希望它看起来像这样当panel collapse collapse div没有in类有效地表明它最初已经崩溃这是重现此
UITableView 动态单元格高度仅在滚动后才正确

我有一个UITableView与定制UITableViewCell使用自动布局在故事板中定义该单元格有多个多行UILabels The UITableView似乎可以正确计算单元格高度但对于前几个单元格该高度未在标签之间正确划分滚动
Rails：为模型创建脚手架以从超类继承？

我是 Rails 的新手仍然处于起步阶段所以如果这是微不足道的或错误的方式做事请原谅我我想为一些脚手架模型创建一个超类例如我想创建一个脚手架Men并为Women 但我希望他们都继承自People超类 Men and Wome
使用 Scrapy 和 selenium 抓取网站

我要抓取 html 内容http ntry com scores named ladder main php http ntry com scores named ladder main php with Scrapy 但是由于该网站的J

使用 Scrapy 和 selenium 抓取网站

使用 Scrapy 和 selenium 抓取网站 的相关文章

随机推荐

热门标签

使用 Scrapy 和 selenium 抓取网站的相关文章