python 爬虫 requests模块中的Cookies 验证通过验证cookies模拟登陆豆瓣登陆

2023-11-15

在爬取某些数据时，需要进行网页的登陆，才可以进行数据的抓取工作。Cookies登陆就像很多网页中的自动登陆功能一样，可以让用户第二次登陆时不在需要验证账号和密码的情况下进行登陆。在requests模块中实现Cookies登陆时，首先需要在浏览器的开发者工具中找到可以实现登陆的Cookies信息，然后将Cookies信息处理并添加至RequestsCookieJar的对象中，最后将RequestsCookieJar对象作为网络请求的Cookies参数发送网络请求即可。

登陆前F12打开开发者工具，然后点击登陆，在Network中点击Name为www.douban.com的标签，然后找到Request Headers 找到Cookie和Referer 把数据填写到代码响应的位置，然后执行如下代码：

在这里插入图片描述

import requests#导入网络请求模块
from lxml import etree#导入lxml模块
from requests.cookies import RequestsCookieJar

cookies = 'bid=pjgLNxf4l58; gr_user_id=3810b31e-93ac-4218-8854-beb0a92270f3; _vwo_uuid_v2=D723216EF67BD847DE34C8293BBE9E476|580f3421ba24bf6f046142cfc8687e24; ll="118177"; __yadk_uid=QGASRU74csarwZMirNUKV2UKBsgYb1jE; douban-fav-remind=1; __utmv=30149280.21866; douban-profile-remind=1; __utmz=30149280.1606616223.6.3.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; __gads=ID=ea2ae52b8181609a-22edd78d4cc200fc:T=1593688576:RT=1593688576:R:S=ALNI_MZie4Sb8bYIKcULjos76IVwiLehCA; _pk_ref.100001.8cb4=%5B%22%22%2C%22%22%2C1606700574%2C%22https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3DdebQUs80fHnuan4dSHOFIclPn6nRfmywWRzpgSnxoEQPNMcF4PvJpy6HRBbBsHonagTUyVIVFfQc2_fFDT25QK%26wd%3D%26eqid%3Dbb0850e80003e0bc000000055fc30448%22%5D; _pk_id.100001.8cb4=0f4e7ccad794e91b.1593688463.6.1606700574.1606616222.; _pk_ses.100001.8cb4=*; __utma=30149280.1002979081.1587122057.1606616223.1606700575.7; __utmc=30149280; __utmt=1; __utmb=30149280.1.10.1606700575; dbcl2="226532095:bJULCGInIN8"'#此处填写登陆后网页中的Cookies信息
headers = {
    'Host': 'www.douban.com',
    'Referer': 'https://accounts.douban.com/',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36'
}
#创建requestsCookieJar对象，用于设置Cookies信息
cookies_jar = RequestsCookieJar()
for cookie in cookies.split(';'):
    key,value = cookie.split('=', 1)
    cookies_jar.set(key,value)#将Cookies保存requestsCookieJar当中
#发送网络请求
response = requests.get('http://www.douban.com/',headers=headers,cookies=cookies_jar)
if response.status_code==200:
    html = etree.HTML(response.text)#解析HTML代码
    #获取用户名
    name = html.xpath('//*[@id="db-global-nav"]/div/div[1]/ul/li[2]/a/span[1]/text()')
    print(name[0])#打印用户名

输出结果：
戴上微笑的帐号 #此处应该显示的是你登陆时候的账号的用户名

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python 爬虫 requests模块中的Cookies 验证通过验证cookies模拟登陆豆瓣登陆的相关文章

如何查看Databricks中的所有数据库和表

我想列出 Azure Databricks 中每个数据库中的所有表所以我希望输出看起来像这样 Database Table name Database1 Table 1 Database1 Table 2 Database1 Table
使用 pythonbrew 编译 Python 3.2 和 2.7 时出现问题

我正在尝试使用构建多个版本的 python蟒蛇酿造 http pypi python org pypi pythonbrew 0 7 3 但我遇到了一些测试失败这是在运行的虚拟机上 Ubuntu 8 04 32 位当我使用时会发生这种情
使用 psycopg2 在 python 中执行查询时出现“编程错误：语法错误位于或附近”

我正在运行 Python v 2 7 和 psycopg2 v 2 5 我有一个 postgresql 数据库函数它将 SQL 查询作为文本字段返回我使用以下代码来调用该函数并从文本字段中提取查询 cur2 execute SELECT
Python 的键盘中断不会中止 Rust 函数 (PyO3)

我有一个使用 PyO3 用 Rust 编写的 Python 库它涉及一些昂贵的计算单个函数调用最多需要 10 分钟从 Python 调用时如何中止执行 Ctrl C 好像只有执行结束后才会处理所以本质上没什么用最小可重现示例 Ca
使 django 服务器可以在 LAN 中访问

我已经安装了Django服务器可以如下访问 http localhost 8000 get sms http 127 0 0 1 8000 get sms 假设我的IP是x x x x 当我这样做时从同一网络下的另一台电脑 my ip
从字符串中删除识别的日期

作为输入我有几个包含不同格式日期的字符串例如彼得在16 45 我的生日是1990年7月8日 On 7 月 11 日星期六我会回家 I use dateutil parser parse识别字符串中的日期在下一步中我想从字符串中删除
如何替换 pandas 数据框列中的重音符号

我有一个数据框dataSwiss其中包含瑞士城市的信息我想用普通字母替换带有重音符号的字母这就是我正在做的 dataSwiss Municipality dataSwiss Municipality str encode utf 8 d
根据列值突出显示数据框中的行？

假设我有这样的数据框 col1 col2 col3 col4 0 A A 1 pass 2 1 A A 2 pass 4 2 A A 1 fail 4 3 A A 1 fail 5 4 A A 1 pass 3 5 A A 2 fail 2
OpenCV 无法从 MacBook Pro iSight 捕获

几天后我无法再从 opencv 应用程序内部打开我的 iSight 相机 cap cv2 VideoCapture 0 返回并且cap isOpened 回报true 然而 cap grab 刚刚返回false 有任何想法吗示例代码
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
从 Flask 访问 Heroku 变量

我已经使用以下命令在 Heroku 配置中设置了数据库变量 heroku config add server xxx xxx xxx xxx heroku config add user userName heroku config add
添加不同形状的 numpy 数组

我想添加两个不同形状的 numpy 数组但不进行广播而是将缺失值视为零可能最简单的例子是 1 2 3 2 gt 3 2 3 or 1 2 3 2 1 gt 3 2 3 1 0 0 我事先不知道形状我正在弄乱每个 np shape
如何使用Python创建历史时间线

So I ve seen a few answers on here that helped a bit but my dataset is larger than the ones that have been answered prev
如何在seaborn displot中使用hist_kws

我想在同一图中用不同的颜色绘制直方图和 kde 线我想为直方图设置绿色为 kde 线设置蓝色我设法弄清楚使用 line kws 来更改 kde 线条颜色但 hist kws 不适用于显示我尝试过使用 histplot 但我无法为
类型错误：预期单个张量时的张量列表 - 将 const 与 tf.random_normal 一起使用时

我有以下 TensorFlow 代码 tf constant tf random normal time step batch size 1 1 我正进入状态TypeError List of Tensors when single Te
Conda SafetyError：文件大小不正确

使用创建 Conda 环境时conda create n env name python 3 6 我收到以下警告 Preparing transaction done Verifying transaction SafetyError Th
使用 Python 绘制 2D 核密度估计

I would like to plot a 2D kernel density estimation I find the seaborn package very useful here However after searching
Rocket UniData/UniVerse：ODBC 无法分配足够的内存

每当我尝试使用pyodbc连接到 Rocket UniData UniVerse 数据时我不断遇到错误 pyodbc Error 00000 00000 Rocket U2 U2ODBC 0302810 Unable to allocate
从列表指向字典变量

假设你有一个清单 a 3 4 1 我想用这些信息来指向字典 b 3 4 1 现在我需要的是一个常规看到该值后在 b 的位置内读写一个值我不喜欢复制变量我想直接改变变量b的内容假设b是一个嵌套字典你可以这样做 reduce di
如何使用 Pycharm 安装 tkinter？ [复制]

这个问题在这里已经有答案了 I used sudo apt get install python3 6 tk而且效果很好如果我在终端中打开 python Tkinter 就可以工作但我无法将其安装在我的 Pycharm 项目上 pip

随机推荐

gitee最详细使用教程，汇总了全网，看这一篇就够了

1 gitee是什么基于git的代码托管协助平台 2 git网站上的注册登录打开gitee官网Gitee 基于 Git 的代码托管和研发协作平台打开注册登录即可邮箱注册最好非邮箱在个人设置里添加自己的邮箱新手请公开自己的邮箱如
《Vision Transformer (ViT)》论文精度，并解析ViT模型结构以及代码实现

AN IMAGE IS WORTH 16X16 WORDS TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 论文共有22页表格和图像很多网络模型结构解释的很清楚并且用四个公式展示了模型的计算过程
springboot枚举反序列化，@JsonCreator注解各种报错解决方案

你多努力一点获得的打击就多一点今天使用枚举传参就出现了各种报错比如这样的 org springframework http converter HttpMessageNotReadableException JSON parse er
Android Fragment之间跳转

1 创建一个接口 public interface ChangeFragment void changge int postion 2 设置一个全局变量 public class GlobalParms private static Hom
OpenCV在图片中输出中文乱码解决方案

转自 http www jeepxie net article 789204 html 一缘起在一个项目中需要把中文字符输出到图片上也就是输出到Mat上 OpenCV 的putText函数不能输出中文通过搜索网上普遍的解决方案是使
C++不定参数函数实现方式

文章目录 define 函数定义 VA LIST栈 c 11初始化列表 c 11 变长参数模板template
java使用jsch连接ssh服务并远程执行命令、上传、下载操作

java使用jsch连接ssh服务并远程执行命令上传下载操作关键依赖 jsch 0 1 54 jar 第一使用用户名和密码连接使用用户名和密码连接 Test public void test1 throws JSchExcepti
php开发俄罗斯方块,动手打造html5俄罗斯方块的（图文）

在正文开始之前还要啰嗦一下标题中所谓自给自足是在没有参考任何设计思路的前提下去开发这游戏的你可能会不解如果参考优秀的思路岂不是事半功倍当然参考与不参考都有利我只说不参考的利当我煞费苦心历经数十个BUG修改终于完成一件作
组件化开发——组件生命周期

最近刚刚换了工作原来一直用angular系列本来一直看好react的结果facebook自己非要作死结果就让vue直飞冲天了现在工作中也用到vue 熟悉之余顺便记下一笔后续可能会有weex先关的暂且记录一下今天看了一下vue
C零基础课程-13-关系运算符与关系表达式

文章目录 C语言中的关系运算符与 gt 与 lt gt 与 lt 关系表达式的值初学者常见bug 错写为视频地址 https www bilibili com video av73897727 C语言中的关系运算符 C语言中的关系运
不要再用简单的加权平均了用回归做融合吧

见
「总结」最全2万字长文解读7大方向人脸数据集v2.0版

人脸图像是计算机视觉领域中研究历史最久也是应用最广泛的图像从人脸检测人脸识别人脸的年龄表情等属性识别到人脸的三维重建等都有非常多的数据集被不断整理提出极大地促进了该领域的发展本次我们从人脸检测关键点检测人脸识别人脸属
【多模态】22、UniDetector

文章目录一背景二方法 2 1 UniDetector 框架结构 2 2 Heterogeneous Label Space Training 2 3 open world inference 三效果 3 1 数据集 3 2 Obj
cmake:target属性POSITION_INDEPENDENT_CODE和INTERFACE_POSITION_INDEPENDENT_CODE的区别

cmake定义的target有两个名字类似的属性 POSITION INDEPENDENT CODE和INTERFACE POSITION INDEPENDENT CODE 本文说明它们的含义和区别 fPIC 介绍POSITION INDE
linux ALSA & ASOC (3) — widget 、route

目录 DAPM的基本单元widget widget的种类 widget之间的连接器path widget的连接关系route 上一篇文章中我们介绍了音频驱动中对基本控制单元的封装 kcontrol 利用kcontrol 我们可以完成对音频
退出旋流虚空

在构建一些软件之前您经常面临着各种可能性的漩涡这可能导致期权瘫痪想象一个巨大的系统建立框架的错误愿望付出了很多努力但没有进展或结果作为一个明智的领袖曾经对我说出色的软件开发人员的特点是他们能够解决一个大问题并将其分解为较小
word文件丢失怎么办？恢复Word文档的3个方案

电脑里面有很多大大小小的文件数据有时对我们可有可无有时是很重要的在清理电脑过程中要是不小心误删了重要的文件 word文件丢失如何恢复只需要下面的3个方案就可以轻松找回Word文档方案一回收站恢复Word文档要说电脑最容易误
Nginx快速入门

Nginx服务快速入门文章目录 Nginx服务快速入门一 Nginx介绍 1 什么是Nginx 2 为什么要使用Nginx 3 什么是正向代理 4 什么是反向代理二 Nginx在Linux下的安装 1 下载 2 安装三 Nginx配
用批处理将文件夹设为虚拟磁盘

记录备忘将下列文本保存成 bat subst Z d subst Z D WorkSpace
python 爬虫 requests模块中的Cookies 验证通过验证cookies模拟登陆豆瓣登陆

在爬取某些数据时需要进行网页的登陆才可以进行数据的抓取工作 Cookies登陆就像很多网页中的自动登陆功能一样可以让用户第二次登陆时不在需要验证账号和密码的情况下进行登陆在requests模块中实现Cookies登陆时首先需要在浏

python 爬虫 requests模块 中的Cookies 验证 通过验证cookies模拟登陆豆瓣登陆

python 爬虫 requests模块 中的Cookies 验证 通过验证cookies模拟登陆豆瓣登陆 的相关文章

随机推荐

热门标签

python 爬虫 requests模块中的Cookies 验证通过验证cookies模拟登陆豆瓣登陆

python 爬虫 requests模块中的Cookies 验证通过验证cookies模拟登陆豆瓣登陆的相关文章