scrapy模拟豆瓣登录

2023-05-16

看的课程是21天搞定分布式爬虫，应该是几年前的了，课程当时还是验证码，现在登录和之前都不一样了现在需要你拖动滑块完成拼图

之前的页面

现在验证码都变成拼图了

学学原理吧

首先创建scrapy项目

首先进入到你想把这个项目存放的目录。然后使用以下命令创建：

scrapy startproject [项目名称]

使用命令创建一个爬虫

cd 项目名称
scrapy gensipder douban "douban.com"

创建完成后目录如下：创建一个start方便我们在pycharm进行打印

from scrapy import cmdline

cmdline.execute("scrapy crawl douban".split())

编写Scrapy项目代码：

1、settings.py（非常重要）

ROBOTSTXT_OBEY = False

设置头文件

DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36',
}

DOWNLOADER_MIDDLEWARES = {
   'douban_login.middlewares.DoubanLoginDownloaderMiddleware': None,
}

使用scrapy.Formrequest.from_response()进行登陆，自动解析当前登陆url，找到表单，发送post请求

参考代码：

import scrapy
from scrapy.http import Request,FormRequest
#导入用于爬取网页验证码
import urllib.request
 
class DoubanspiderSpider(scrapy.Spider):
    name = 'doubanSpider'
    allowed_domains = ['douban.com']
    #浏览器的header
    header={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36 OPR/54.0.2952.71"}
    #start_urls = ['http://www.douban.com/']
    #设置提交登录信息的网址，注意要设置cookie储存登录信息以实现连续爬取
    def start_requests(self):
        return [Request("https://accounts.douban.com/login", callback=self.parse, meta={"cookiejar": 1})]
 
    #处理数据的方法
    def parse(self, response):
        #尝试获取网页中的验证码链接
        captcha = response.xpath("//img[@id='captcha_image']/@src").extract()
        #根据是否爬取到了验证码图片执行相关处理
        if len(captcha) > 0:
            print("此时有验证码")
            #爬取验证码图片至本地，提示用户进行输入
            localpath = "E:/Scrapy/result/captcha.png"
            urllib.request.urlretrieve(captcha[0], filename=localpath)
            print("请查看本地验证码图片并输入验证码")
            captcha_value = input()
            #设置需要提交至登录URL的数据，包括用户名、密码、验证码以及登录成功的回调页
            data = {
                "form_email": "正确的用户名",
                "form_password": "正确的对应密码",
                "captcha-solution": captcha_value,
                "redir": "https://www.douban.com/people/164741792/",
            }
        else:
            print("此时没有验证码")
            #设置需要提交至登录URL的数据，包括用户名、密码以及登录成功的回调页
            data = {
                "form_email": "正确的用户名",
                "form_password": "正确的对应密码",
                "redir": "https://www.douban.com/people/164741792/",
            }
        print("登录……")
        #登录成功后执行后续方法
        return [FormRequest.from_response(response,
                                          meta={"cookiejar": response.meta["cookiejar"]},
                                          headers=self.header,
                                          formdata=data,
                                          callback=self.next,
                                          )]
 
    #登录成功后，提取用户信息
    def next(self, response):
        print("此时已经登陆完成并爬取了个人中心的数据")
        title = response.xpath("/html/head/title/text()").extract()
        note = response.xpath("//div[@class='note']/text()").extract()
        print(title[0])
        print(note[0])

参考资料：https://blog.csdn.net/Smart3S/article/details/82946641

https://blog.csdn.net/qq_42293758/article/details/87925623

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Scrapy

模拟豆瓣登录

scrapy模拟豆瓣登录的相关文章

Scrapy 阿拉伯字母返回一些奇怪的东西

我在用scrapy关于阿拉伯字母和英文字母英文字母完美地工作然而阿拉伯字母显示如下 gs300 2006 u0644 u0643 u0632 u0633 u062c u064a 有什么帮助吗我正在使用 python 和 scrapy
我有 12000 个已知 URL，用 Python 抓取它们的最快方法是什么？

因此我有一个从数据库中提取的 URL 列表我需要抓取并解析每个 URL 的 JSON 响应某些 URL 返回 null 而其他 URL 返回发送到 csv 文件的信息我目前正在使用Scrapy 但是抓取这12000个URL大约需要4
Scrapy - 抓取时发现的抓取链接

我只能假设这是 Scrapy 中最基本的事情之一但我就是不知道如何去做基本上我会抓取一页来获取包含本周更新的网址列表然后我需要一一进入这些网址并从中获取信息我目前已经设置了两个刮刀并且它们可以完美地手动工作因此我首先从第一个
如何自动检索AJAX调用的URL？

目的是对爬行蜘蛛进行编程使其能够 1 检索此页面表格中链接的 URL http cordis europa eu fp7 security projects en html http cordis europa eu fp7 securi
Scrapy FakeUserAgentError：获取浏览器时发生错误

我使用 Scrapy FakeUserAgent 并在我的 Linux 服务器上不断收到此错误 Traceback most recent call last File usr local lib64 python2 7 site pack
错误：尝试使用 scrappy 登录时出现 raise ValueError("No element found in %s" % response)

问题描述我想从我大学的bbs上抓取一些信息这是地址 http bbs byr cn http bbs byr cn下面是我的蜘蛛的代码 from lxml import etree import scrapy try from scra
Selenium 与 scrapy 的动态页面

我正在尝试使用 scrapy 从网页中抓取产品信息我要抓取的网页如下所示从包含 10 个产品的 Product list 页面开始单击下一步按钮将加载接下来的 10 个产品两个页面之间的 URL 不会改变我使用 LinkExt
如何使用XPath选择非空段落？

我想要抓取的网页具有类似的结构每个都有一个段落是一个问题一个段落是一个答案我想抓取每个问题和答案并将它们存储在两个项目中问题是在某些页面上问题和答案分别是 xxx p 1 and xxx p 2 但在其他页面上 xxx p 1
我的扩展中未收到 Scrapy Spider_idle 信号

我在几个蜘蛛之间有共同的行为spider idle正在接收信号我想将此行为移至扩展中我的分机已经监听spider opened and spider closed信号成功但是那spider idle未收到信号这是我的扩展为简洁起
Scrapy CrawlSpider 规则具有多个回调

我正在尝试创建一个实现 scrapy CrawlSpider 的 ExampleSpider 我的 ExampleSpider 应该能够处理仅包含艺术家信息的页面仅包含专辑信息的页面以及其他一些包含专辑和艺术家信息的页面我能够处理前两
scrapy蜘蛛如何将值返回给另一个蜘蛛

我正在爬行的网站包含许多玩家当我点击任何玩家时我都可以进入他的页面网站结构是这样的
如何从当前项目向 scrapyd 添加新服务

我试图同时运行多个蜘蛛并在 scrapy 中制作了自己的自定义命令现在我尝试通过 srapyd 运行该命令我尝试将其作为新服务添加到我的 scrapd conf 中但它抛出一个错误指出没有这样的模块 Failed to load
打印 scrapy 请求的“响应”

我正在尝试学习 scrapy 在遵循教程的同时我正在尝试进行细微的调整我想简单地从请求中获取响应内容然后我会将响应传递到教程代码中但我无法发出请求并获取响应内容建议就好 from scrapy http import Respon
Scrapy - 不会爬行

我正在尝试运行递归爬行由于我编写的爬行不能正常工作因此我从网络上提取了一个示例并进行了尝试我真的不知道问题出在哪里但是爬行没有显示任何错误谁能帮我这个另外是否有任何逐步调试工具可以帮助理解蜘蛛的爬行流程非常感谢任何与此相关的
Scrapy：等待特定网址解析后再解析其他网址

简要说明我有一个 Scrapy 项目它从 Yahoo 获取股票数据金融为了使我的项目顺利进行我需要确保库存已经存在了所需的时间为此我首先抓取 CAT Caterpillar Inc CAT NYSE 获取该时间段内的收盘价金额
Scrapy在页面上找不到表单

我正在尝试编写一个自动登录的蜘蛛这个网站 https www athletic net account login ReturnUrl 2Fdefault aspx 但是当我尝试使用scrapy FormRequest from resp
如何使用scrapy获取某人的关注者以及Instagram照片下的评论？

正如您所看到的以下 json 包含关注者数量以及评论数量但是我如何访问每个评论中的数据以及关注者 ID 以便我可以爬取它们 logging page id profilePage 20327023 user biography null
Scrapy - 持续从数据库中获取要爬取的url

我想不断地从数据库中获取要爬行的网址到目前为止我成功地从基地获取了 url 但我希望我的蜘蛛继续从该基地读取因为该表将由另一个线程填充我有一个管道一旦爬行工作就会从表中删除 url 换句话说我想使用我的数据库作为队列我尝试
InterfaceError：连接已关闭（使用 django + celery + Scrapy）

当我在 Celery 任务中使用 Scrapy 解析函数有时可能需要 10 分钟时我得到了这个信息我用姜戈 1 6 5 django celery 3 1 16 芹菜 3 1 16 psycopg2 2 5 5 我也使用了psyc
VSCode Settings.json 丢失

我正在遵循教程并尝试将 vscode 指向我为 Scrapy 设置的虚拟工作区但是当我在 VSCode 中打开设置时工作区设置选项卡不在用户设置选项卡旁边我还尝试通过以下方式手动转到文件 APPDATA Code User s

随机推荐

爬虫实战之爬取古诗文网站（详细）

爬取古诗文网站重点是练习正则表达式的使用链接变化 url base 61 39 https www gushiwen cn default aspx 39 for i in range 1 2 print 39 正在爬取第页 xff1
利用Python爬取糗事百科段子信息

有个博客很详细https blog csdn net weixin 42488570 article details 80794087 要求 xff1a 用户ID xff0c 用户等级 xff0c 用户性别 xff0c 发表段子文字信息 x
爬虫之数据存储（json,csv,mysql)等

JSON支持数据格式 xff1a 对象 xff08 字典 xff09 使用花括号数组 xff08 列表 xff09 使用方括号整形浮点型布尔类型还有null类型字符串类型 xff08 字符串必须要用双引号 xff0c 不能用单引号
MongoDB的安装及配置服务及使用

安装配置 https blog csdn net heshushun article details 77776706 1 先在安装目录data文件下创建一个新文件夹log xff08 用来存放日志文件 xff09 2 在Mongodb安装
python多线程学习

Python3 线程中常用的两个模块为 xff1a thread xff08 已经废弃 xff09 threading 推荐使用线程模块 Python3 通过两个标准库 thread 和 threading 提供对线程的支持 thread
爬虫实战之多线程下载表情包

一般下载 import requests from lxml import etree import os import re from urllib request import urlretrieve headers 61 39 Use
卷积padding,kernel_initializer

TensorFlow和 keras layers convolutional Conv1D和tf layers Conv1D函数 keras layers convolutional Conv1D filters kernel size s
python刷题之链表常见操作

链表常用操作也可以把列表当做队列用 xff0c 只是在队列里第一加入的元素 xff0c 第一个取出来 xff1b 但是拿列表用作这样的目的效率不高在列表的最后添加或者弹出元素速度快 xff0c 然而在列表里插入或者从头部弹出速度却不快
刷题之链表

链表相关 19 删除链表的倒数第 N 个结点难度中等1261收藏分享切换为英文接收动态反馈给你一个链表 xff0c 删除链表的倒数第 n 个结点 xff0c 并且返回链表的头结点进阶 xff1a 你能尝试使用一趟扫描实现吗 xff1f
高级爬虫: 使用 Selenium 浏览器

安装Selenium和chromedriver xff1a 因为 Selenium 需要操控你的浏览器所以安装起来比传统的 Python 模块要多几步先在 terminal 或者 cmd 用 pip 安装 selenium python
python刷题之栈和队列

20 有效的括号难度简单2228 给定一个只包括 39 39 xff0c 39 39 xff0c 39 39 xff0c 39 39 xff0c 39 39 xff0c 39 39 的字符串 s xff0c 判断字符串是否有效有效字符串
python实现堆的基本操作及堆相关练习

堆 heap 又被为优先队列 priority queue 尽管名为优先队列 xff0c 但堆并不是队列回忆一下 xff0c 在队列中 xff0c 我们可以进行的限定操作是dequeue和enqueue dequeue是按照进入队列的先后
python刷题之集合、哈希表常见操作及练习

集合集合是一个无序不重复元素的集基本功能包括关系测试和消除重复元素可以用大括号创建集合注意 xff1a 如果要创建一个空集合 xff0c 你必须用 set 而不是 xff1b 后者创建一个空的字典 xff0c 下一节我们会介绍这个
用selenium爬取拉勾网职位信息及常见问题处理

初步爬虫框架构造下面采用selenium进行爬虫 xff0c 首先构造一下爬虫的框架 xff0c 将整个程序构造为一个类 xff0c 其中主要包括 xff1a 获取每个详细职位信息的链接 xff08 parse page url xff0
Scrapy爬虫快速入门

Scrapy快速入门 Scrapy框架模块功能 xff1a Scrapy Engine xff08 引擎 xff09 xff1a Scrapy框架的核心部分负责在Spider和ItemPipeline Downloader Schedul
嵌入式系统USB CDROM虚拟光驱驱动程序开发

带U盘功能的的USB接口设备已经越来越常见了如果能够把产品说明书或者产品设备驱动程序做成一个USB CDROM xff0c 那该多方便假设 xff1a 你已经有了USB mass storage驱动你的任务是在此基础上增加一个USB
Redis集群原理详解

一 Redis集群介绍 xff1a 1 为什么需要Redis集群 xff1f 在讲Redis集群架构之前 xff0c 我们先简单讲下Redis单实例的架构 xff0c 从最开始的一主N从 xff0c 到读写分离 xff0c 再到Sentin
python刷题之快慢指针与二分查找

141 环形链表难度简单986 给定一个链表 xff0c 判断链表中是否有环如果链表中有某个节点 xff0c 可以通过连续跟踪 next 指针再次到达 xff0c 则链表中存在环为了表示给定链表中的环 xff0c 我们使用整数 pos
LeetCode每日一题

191 位1的个数难度简单290 编写一个函数 xff0c 输入是一个无符号整数 xff08 以二进制串的形式 xff09 xff0c 返回其二进制表达式中数字位数为 39 1 39 的个数 xff08 也被称为汉明重量 xff09 提示
scrapy模拟豆瓣登录

看的课程是21天搞定分布式爬虫 xff0c 应该是几年前的了 xff0c 课程当时还是验证码 xff0c 现在登录和之前都不一样了现在需要你拖动滑块完成拼图之前的页面现在验证码都变成拼图了学学原理吧首先创建scrapy项目首先进入

scrapy模拟豆瓣登录

scrapy模拟豆瓣登录 的相关文章

随机推荐

热门标签

scrapy模拟豆瓣登录的相关文章