Python爬虫(JS逆向) 抓取POCO图片/Json数据处理/保存本地详细案例

2023-11-16


前言

之前搞的一个站,最近重新整理了一下,写篇文章记录,也可以给需要的小伙伴参考学习。(篇章中若有讲解不对的地方欢迎评论区指正


目标网站:​​​​​​颇可网 - 领先的时尚摄影平台,摄影视频,摄影爱好者分享作品和技巧首选,个人空间

一、分析页面

首先进入页面后确定我们要抓取的目标

打开页面后发现该网站是采用懒加载的方式加载图片的。

ps:懒加载就是当页面被请求时,只加载可视区域的图片,其它部分的图片则不加载,只有这些图片出现在可视区域时才会动态加载这些图片,从而节约了网络带宽和提高了初次加载的速度。

但是这些咱先不管它,打开f12抓包,看看这些图片都在哪。小技巧,先打开f12,然后清空之后再点击下一页,由于该网页是懒加载,所以我们只需要往下滑即可。

抓到包之后接下来开始进入主题了

二、逆向过程

2.1 分析参数

简单看一眼头部信息和传入的参数,直接请求数据肯定是行不通的,是有反爬手段的。

先看看头部信息和传入的参数吧(重点在这Form Data表单数据

把它复制出来然后刷新对比一下可以总结出其中比较重要的数据的含义。

"ctime" : 时间戳      (利用python可以自己生成

”length“ : 想要加载的张数  (也可以理解为我们想要爬取的数量 

”sign_code“  :加密参数    (最重要的一个

"works_category": 照片类型的参数(检验了一下就是主页面上照片分类,往后分别是123...

2.2 sign_code值

    我们这里直接用全局搜索的方法找到加密的位置,只有一个js文件,我们直接点击进去看看

 一进来就可以看到sign_code加密的位置了,在13479和13490两个位置下个断点刷新看看它是如何生成的。

分析一下这几行js代码 

var o = JSON.stringify(e)    # 只是把o转换成字符串的一个操作而已,o经过多次检验,就是文章上面写道的prama参数

("param":{"start":20,” length":20,"works_category":"1","time_point":1641981023})
n = t("poco_" + o + "_app");  #经过t函数加密一段字符串
n = n.substr(5, 19);    # 取加密后数据的其中一截当作sign_code值

定位到这里之后凭经验看到这儿应该就是加密的位置了,我们可以试着把这一整个函数扣下来,在本地运行看看是否能产生出我们想要的sign_code值。

2.3 扣代码

以下是扣出的完整js代码,最后手动写了个调用函数

function r(n, t) {
        var r = (65535 & n) + (65535 & t)
          , e = (n >> 16) + (t >> 16) + (r >> 16);
        return e << 16 | 65535 & r
    }
    function e(n, t) {
        return n << t | n >>> 32 - t
    }
    function u(n, t, u, o, c, f) {
        return r(e(r(r(t, n), r(o, f)), c), u)
    }
    function o(n, t, r, e, o, c, f) {
        return u(t & r | ~t & e, n, t, o, c, f)
    }
    function c(n, t, r, e, o, c, f) {
        return u(t & e | r & ~e, n, t, o, c, f)
    }
    function f(n, t, r, e, o, c, f) {
        return u(t ^ r ^ e, n, t, o, c, f)
    }
    function i(n, t, r, e, o, c, f) {
        return u(r ^ (t | ~e), n, t, o, c, f)
    }
    function a(n, t) {
        n[t >> 5] |= 128 << t % 32,
        n[(t + 64 >>> 9 << 4) + 14] = t;
        var e, u, a, h, g, d = 1732584193, l = -271733879, v = -1732584194, s = 271733878;
        for (e = 0; e < n.length; e += 16)
            u = d,
            a = l,
            h = v,
            g = s,
            d = o(d, l, v, s, n[e], 7, -680876936),
            s = o(s, d, l, v, n[e + 1], 12, -389564586),
            v = o(v, s, d, l, n[e + 2], 17, 606105819),
            l = o(l, v, s, d, n[e + 3], 22, -1044525330),
            d = o(d, l, v, s, n[e + 4], 7, -176418897),
            s = o(s, d, l, v, n[e + 5], 12, 1200080426),
            v = o(v, s, d, l, n[e + 6], 17, -1473231341),
            l = o(l, v, s, d, n[e + 7], 22, -45705983),
            d = o(d, l, v, s, n[e + 8], 7, 1770035416),
            s = o(s, d, l, v, n[e + 9], 12, -1958414417),
            v = o(v, s, d, l, n[e + 10], 17, -42063),
            l = o(l, v, s, d, n[e + 11], 22, -1990404162),
            d = o(d, l, v, s, n[e + 12], 7, 1804603682),
            s = o(s, d, l, v, n[e + 13], 12, -40341101),
            v = o(v, s, d, l, n[e + 14], 17, -1502002290),
            l = o(l, v, s, d, n[e + 15], 22, 1236535329),
            d = c(d, l, v, s, n[e + 1], 5, -165796510),
            s = c(s, d, l, v, n[e + 6], 9, -1069501632),
            v = c(v, s, d, l, n[e + 11], 14, 643717713),
            l = c(l, v, s, d, n[e], 20, -373897302),
            d = c(d, l, v, s, n[e + 5], 5, -701558691),
            s = c(s, d, l, v, n[e + 10], 9, 38016083),
            v = c(v, s, d, l, n[e + 15], 14, -660478335),
            l = c(l, v, s, d, n[e + 4], 20, -405537848),
            d = c(d, l, v, s, n[e + 9], 5, 568446438),
            s = c(s, d, l, v, n[e + 14], 9, -1019803690),
            v = c(v, s, d, l, n[e + 3], 14, -187363961),
            l = c(l, v, s, d, n[e + 8], 20, 1163531501),
            d = c(d, l, v, s, n[e + 13], 5, -1444681467),
            s = c(s, d, l, v, n[e + 2], 9, -51403784),
            v = c(v, s, d, l, n[e + 7], 14, 1735328473),
            l = c(l, v, s, d, n[e + 12], 20, -1926607734),
            d = f(d, l, v, s, n[e + 5], 4, -378558),
            s = f(s, d, l, v, n[e + 8], 11, -2022574463),
            v = f(v, s, d, l, n[e + 11], 16, 1839030562),
            l = f(l, v, s, d, n[e + 14], 23, -35309556),
            d = f(d, l, v, s, n[e + 1], 4, -1530992060),
            s = f(s, d, l, v, n[e + 4], 11, 1272893353),
            v = f(v, s, d, l, n[e + 7], 16, -155497632),
            l = f(l, v, s, d, n[e + 10], 23, -1094730640),
            d = f(d, l, v, s, n[e + 13], 4, 681279174),
            s = f(s, d, l, v, n[e], 11, -358537222),
            v = f(v, s, d, l, n[e + 3], 16, -722521979),
            l = f(l, v, s, d, n[e + 6], 23, 76029189),
            d = f(d, l, v, s, n[e + 9], 4, -640364487),
            s = f(s, d, l, v, n[e + 12], 11, -421815835),
            v = f(v, s, d, l, n[e + 15], 16, 530742520),
            l = f(l, v, s, d, n[e + 2], 23, -995338651),
            d = i(d, l, v, s, n[e], 6, -198630844),
            s = i(s, d, l, v, n[e + 7], 10, 1126891415),
            v = i(v, s, d, l, n[e + 14], 15, -1416354905),
            l = i(l, v, s, d, n[e + 5], 21, -57434055),
            d = i(d, l, v, s, n[e + 12], 6, 1700485571),
            s = i(s, d, l, v, n[e + 3], 10, -1894986606),
            v = i(v, s, d, l, n[e + 10], 15, -1051523),
            l = i(l, v, s, d, n[e + 1], 21, -2054922799),
            d = i(d, l, v, s, n[e + 8], 6, 1873313359),
            s = i(s, d, l, v, n[e + 15], 10, -30611744),
            v = i(v, s, d, l, n[e + 6], 15, -1560198380),
            l = i(l, v, s, d, n[e + 13], 21, 1309151649),
            d = i(d, l, v, s, n[e + 4], 6, -145523070),
            s = i(s, d, l, v, n[e + 11], 10, -1120210379),
            v = i(v, s, d, l, n[e + 2], 15, 718787259),
            l = i(l, v, s, d, n[e + 9], 21, -343485551),
            d = r(d, u),
            l = r(l, a),
            v = r(v, h),
            s = r(s, g);
        return [d, l, v, s]
    }
    function h(n) {
        var t, r = "";
        for (t = 0; t < 32 * n.length; t += 8)
            r += String.fromCharCode(n[t >> 5] >>> t % 32 & 255);
        return r
    }
    function g(n) {
        var t, r = [];
        for (r[(n.length >> 2) - 1] = void 0,
        t = 0; t < r.length; t += 1)
            r[t] = 0;
        for (t = 0; t < 8 * n.length; t += 8)
            r[t >> 5] |= (255 & n.charCodeAt(t / 8)) << t % 32;
        return r
    }
    function d(n) {
        return h(a(g(n), 8 * n.length))
    }
    function l(n, t) {
        var r, e, u = g(n), o = [], c = [];
        for (o[15] = c[15] = void 0,
        u.length > 16 && (u = a(u, 8 * n.length)),
        r = 0; 16 > r; r += 1)
            o[r] = 909522486 ^ u[r],
            c[r] = 1549556828 ^ u[r];
        return e = a(o.concat(g(t)), 512 + 8 * t.length),
        h(a(c.concat(e), 640))
    }
    function v(n) {
        var t, r, e = "0123456789abcdef", u = "";
        for (r = 0; r < n.length; r += 1)
            t = n.charCodeAt(r),
            u += e.charAt(t >>> 4 & 15) + e.charAt(15 & t);
        return u
    }
    function s(n) {
        return unescape(encodeURIComponent(n))
    }
    function C(n) {
        return d(s(n))
    }
    function A(n) {
        return v(C(n))
    }
    function m(n, t) {
        return l(s(n), s(t))
    }
    function p(n, t) {
        return v(m(n, t))
    }
    function b(n, t, r) {
        return t ? r ? m(t, n) : p(t, n) : r ? C(n) : A(n)
    };


function getsign(o){
    n = b("poco_" + o + "_app");
    n = n.substr(5, 19);
    return n  
}

 

 测试之后在本地上是可以运行成功的,并且拿到了我们想要的加密数据,到这里其实差不多已经完成了百分之九十了,接下来就是请求数据并且抓取的部分了。

三、 请求数据,处理Json数据以及把图片保存到本地

3.1 引入库

import requests  # 请求数据
import time     # 生成时间戳
import execjs   # 第三方类库来执行js语句

3.2 生成时间戳和参数

time_point = int(time.time())
o = '{"start":0,"length":20,"works_category":"1","time_point":'+str(time_point)+'}'
with open('D:/poco.js', 'r', encoding='utf-8') as f:   # 读取扣下来保存到本地的js代码
    js_data = f.read()
js_obj = execjs.compile(js_data)
sign_code = js_obj.call('getsign',o)  # 第一个参数是函数名,第二个是传入的参数
# print("sign_code")

这里的length参数是请求的数据量,我只抓取了20张,可以根据自己的需求更改。以及works_category参数同样根据自己的需求更改。

3.3 发起请求

​
# 把sign_code和时间戳拼接到传入的参数中
data = {
    'req': '{"version":"1.1.0","app_name":"poco_photography_web","os_type":"weixin","is_enc":0,"env":"prod","ctime":'+str(int(time.time()*1000))+',"param":{"start":0,"length":20,"works_category":"1","time_point":'+str(time_point)+'},"sign_code":"'+str(sign_code)+'"}',
    'host_port': 'https://photo.poco.cn'
}

由于数据是json格式,我们要的图片地址在data下的list下的img中

json数据格式可以这样拿,代码如下

response = requests.post(url,headers=headers,data=data).json()['data']['list']
for i in response:
    img = i['img']
    urls = 'http:' + str(img)   # 进行简单拼接成url格式

 利用for循环把请求的图片保存到本地

    with open(f'D:/POCO图库/img{num}.jpg', 'wb') as f:
        print('正在下载第{}张'.format(num))
        f.write(content)

大功告成辽

四、附上完整代码

# _*_ coding:UTF-8 _*_
# @Software : PyCharm
import requests
import time
import execjs


time_point = int(time.time())
o = '{"start":0,"length":20,"works_category":"1","time_point":'+str(time_point)+'}'
with open('D:/poco.js', 'r', encoding='utf-8') as f:
    js_data = f.read()
js_obj = execjs.compile(js_data)
sign_code = js_obj.call('getsign',o)
# print(sign_code)

url = 'https://web-api.poco.cn/v1_1/rank/get_homepage_recommend_list'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
    'Referer': 'https://photo.poco.cn/?classify_type=1&works_type=medal',
    'Origin': 'https://photo.poco.cn'
}
data = {
    'req': '{"version":"1.1.0","app_name":"poco_photography_web","os_type":"weixin","is_enc":0,"env":"prod","ctime":'+str(int(time.time()*1000))+',"param":{"start":0,"length":20,"works_category":"1","time_point":'+str(time_point)+'},"sign_code":"'+str(sign_code)+'"}',
    'host_port': 'https://photo.poco.cn'
}

response = requests.post(url,headers=headers,data=data).json()['data']['list']
num = 1
for i in response:
    img = i['img']
    urls = 'http:' + str(img)
    content = requests.get(urls).content
    with open(f'D:/POCO图库/img{num}.jpg', 'wb') as f:
        print('正在下载第{}张'.format(num))
        f.write(content)
    num += 1

print('完')


总结

吐槽一下最新版的谷歌浏览器(劝大家最好还是用旧版本会比较稳定),日常闪退,调试js的时候闪退,还好这个网站加密的地方并没有很深。

中途扣出来的js代码试图在谷歌浏览器运行发现会报错,说我的方法未定义,应该是个bug,后来换去360极速浏览器可以正常运行。

 还是那句话,本篇文章只适用于学习,不做用于任何商业用途,做一个友好的爬虫

PS:如果觉得本篇本章对您有所帮助,欢迎关注、评论、点赞,谢谢!

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python爬虫(JS逆向) 抓取POCO图片/Json数据处理/保存本地详细案例 的相关文章

随机推荐

  • 多因素认证与身份验证:分析不同类型的多因素认证方法,介绍如何在访问控制中使用身份验证以增强安全性

    随着数字化时代的到来 信息安全问题变得愈发重要 在网络世界中 用户的身份往往是保护敏感数据和系统免受未经授权访问的第一道防线 单一的密码已经不再足够 多因素认证 MFA 应运而生 成为提升身份验证安全性的重要工具之一 本文将深入探讨不同类型
  • rpm常用命令记录

    文章目录 1 常用rpm命令 2 rpm参数 1 常用rpm命令 rpm ivh xxx rpm 安装rpm rpm Uvh xxx rpm 升级rpm rpm e xxx rpm 删除rpm rpm qi xxx rpm 查看安装包的信息
  • node.js 数据实现分页问题(后端)

    最近在写项目时 碰到的问题 let arr let rows for let e 0 e
  • TCP 和 UDP 的 Socket 调用

    在网络层 Socket 函数需要指定到底是 IPv4 还是 IPv6 分别对应设置为 AF INET 和 AF INET6 另外 还要指定到底是 TCP 还是 UDP TCP 协议是基于数据流的 所以设置为 SOCK STREAM 而 UD
  • live555学习之一整体说明

    live555 是一套采用rtsp协议作为其核心 可以用来传输接收多媒体包括H264 H265 音频等多媒体数据的开源架构代码集 通过扩展一些类的方式 实现rtsp server 和client端的功能 并且提供源码 其源码 可以是从官网
  • python程序封装成exe_手把手教你给Python程序写图形界面,并且打包成exe文件

    环境配置 官网下载Python3 LZ的配置环境是Python3 6 PyCharm 2017 2 1 pip3 install PyQt5 下载PyQt5pip install PyQt5 tools i http pypi douban
  • 【嵌入式Linux】开发环境搭建

    一 概述 在进行某一个芯片平台开发前 一般都需要在电脑上安装一系列软件 然后在这些软件上阅读 编写 编译和调试在该平台上运行的代码 最后将编写好的代码通过某种方式烧录到该芯片的对应地址运行 在电脑上安装的这一系列软件的过程 就是开发环境的搭
  • Python数据类型——字符串、列表、元组

    文章目录 一 字符串 二 列表 三 元组 四 字符串 列表和元组的常用方法 一 字符串 在Python中 可以使用单引号或者双引号来创建字符串 单引号或者双引号没有任何区别 字符串也可以赋值给变量 字符串 str1 字符串 str2 字符串
  • Android Studio使用常见问题(一)

    一 无法成功build 1 出现如下错误 Error Unable to tunnel through proxy Proxy returns HTTP 1 1 400 Bad Request 2 原因分析 本地gradle版本与项目制定的
  • php代码学习(二)绕过空白过滤

    绕过空白过滤
  • 华为OD社招面试(技术二面完)--总结复盘

    2020年4月22日 华为OD社招面试复盘总结 一 华为OD简介 首先来解释一下什么是华为OD面试 OD一般是指的是华为的 外包 公司 比如像德科这种 网上其实有很多人都吐槽过这个招聘模式 因为招进去的人不直接是华为内部的人 挂在德科名下或
  • windows批处理:if else的踩坑点及排版优化

    参考 https www jianshu com p f0bde7d355a4 总结 见参考文章
  • python提取excel一列或多列数据另存为新表(1)

    系列文章目录 文章目录 系列文章目录 前言 一 python提取excel指定一列保存到新表 二 python提取excel指定两列保存到新表 总结 前言 一 python提取excel指定一列保存到新表 原数据举例如下 提取B列另存到新表
  • DFS深度优先搜索

    目录 一 DFS的概念 DFS的定义 DFS的搜索方式 DFS采用的数据结构 DFS的特点 二 DFS的实战应用 1 排列数字 2 n 皇后问题 一 DFS的概念 DFS的定义 DFS Depth First Search 深度优先搜索 是
  • 阈值分割法

    阈值分割法可以说是图像分割中的经典方法 它利用图像中要提取的目标与背景在灰度上的差异 通过设置阈值来把像素级分成若干类 从而实现目标与背景的分离 一般流程 通过判断图像中每一个像素点的特征属性是否满足阈值的要求 来确定图像中的该像素点是属于
  • chatGPT插件是什么,chatGPT插件作用介绍

    简介 openAI团队已经在 ChatGPT 中实现了对插件的初步支持 插件是专门为以安全为核心原则的语言模型设计的工具 可帮助 ChatGPT 访问最新信息 运行计算或使用第三方服务 目前体验与开发需要先加入等候名单 官网介绍链接 htt
  • java中如何导入同一个包下其他类文件中的方法,举个例子

    在 Java 中 可以使用 import 关键字导入同一个包下的其他类文件中的方法 例如 假设在同一个包 com example 下有两个类 ClassA 和 ClassB 那么可以在 ClassB 中导入 ClassA 中的方法 代码如下
  • LeetCode:二叉树的遍历方式(13道经典题目)

    LeetCode 二叉树的遍历方式 13道经典题目 本文带来与二叉树的遍历方法有关的经典题目 主要实现是C 144 二叉树的前序遍历 94 二叉树的中序遍历 145 二叉树的后序遍历 102 二叉树的层序遍历 107 二叉树的层序遍历 II
  • 盒模型BFC渲染机制

    目录 一 BFC基本慨念 二 BFC渲染规则 三 如何创建BFC元素 一 BFC基本慨念 一个块格式化上下文 block formatting context 是Web页面的可视化CSS渲染出的一部分 它是块级盒布局出现的区域 也是浮动层元
  • Python爬虫(JS逆向) 抓取POCO图片/Json数据处理/保存本地详细案例

    文章目录 目录 文章目录 前言 一 分析页面 二 逆向过程 2 1 分析参数 2 2 sign code值 2 3 扣代码 三 请求数据 处理Json数据以及把图片保存到本地 3 1 引入库 3 2 生成时间戳和参数 3 3 发起请求 四