python爬虫实战-如何批量爬取唯品会商品信息＞＞＞

2023-11-01

第一步、打开唯品会网站 https://www.vip.com。然后随意搜索一种商品，比如"键盘",搜索之后下拉发现页面URL没有发生改变，但是商品信息在不断加载，那么这就是动态Ajax技术，遇到这种情况，第一反应就是找接口。

第二步、打开开发者工具，鼠标右键，点击检查，切换到Network选项卡，然后刷新唯品会页面，进行抓包，然后查看每个包的pirview，发现商品信息在‘ v2?callback=getMerchandise’中，我们来看一下URL,不看不要紧，一看吓一跳-_-,这URL也太长了，研究一下参数，发现主要是每件商品都有自己的pid,那么接下来，只要我们找到商品的pid就可以抓取数据了。

继续在Network抓到的包中查看每个包的priview，最终在‘rank?callback=getMerchandis’中找到了商品的pid。接下来就好办了，先切换到headers,查看url参数,在唯品会页面翻页，发现改变的只有pageOffset，每次翻页pageOffset增加120，那么每页的商品有120件，而且如果换一件商品进行搜索，只有keyword改变，了解了这一点，我们就可以实现搜索商品关键词然后得到对应的商品信息，并且可以进行翻页。

第三步、获取商品的pid。访问‘rank?callback=getMerchandis’中的URL，参数keyword，和pageOffset可以进行修改，以达到自己想要的信息，然后请求HTML页面，记得加上请求头。在‘rank?callback=getMerchandis’包中的 priview中可以得知，该页面返回的是json数据，而且是不合法的json那么就要将不合法的json，那么就要将不合法的json转换成字典，方便取出pid，直接上代码。



keyword = input('请输入想要查询的商品关键词>>>')
pagenum = int(input('请输入页数,每页120个商品>>>'))
for i in range(0,pagenum):
   url = 'https://mapi.vip.com/vips-mobile/rest/shopping/pc/search/product/rank?callback=getMerchandiseIds&app_name=shop_pc&app_version=4.0&warehouse=VIP_HZ&fdc_area_id=104101108&client=pc&mobile_platform=1&province_id=104101&api_key=70f71280d5d547b2a7bb370a529aeea1&user_id=&mars_cid=1628070214309_e7fbca2c43dda020cc7734c00466d49c&wap_consumer=a&standby_id=nature&keyword{}&lv3CatIds=&lv2CatIds=&lv1CatIds=&brandStoreSns=&props=&priceMin=&priceMax=&vipService=&sort=0&pageOffset{}&channelId=1&gPlatform=PC&batchSize=120&_=1628070503449'.format(quote(keyword),120*i)
   headers = {
               'referer': 'https://category.vip.com/',
               'user-agent': 'Mozilla/5.0'
}
   html = requests.get(url,headers = headers)
   # print(html.text)
   start = html.text.find('{"code"')
   json_data = json.loads(html.text[start:-1])['data']['products']
   # print(json_data)
   for data in json_data:
       pid = data['pid']
       # print(pid)

第四步、有了商品pid再回到‘ v2?callback=getMerchandise’中，将商品pid放到URL里面然后再求情就可以得到商品的json数据，再次转换成字典格式，然后想要什么信息，直接从字典里取出来就行。

for data in json_data:
    pid = data['pid']
    # print(pid)
    stuff_url = 'https://mapi.vip.com/vips-mobile/rest/shopping/pc/product/module/list/v2?callback=getMerchandiseDroplets1&app_name=shop_pc&app_version=4.0&warcallback=getMerchandiseDroplets1&app_name=shop_pc&app_version=4.0&warehouse=VIP_HZ&fdc_area_id=104101108&client=pc&mobile_platform=1&province_id=104101&api_key=70f71280d5d547b2a7bb370a529aeea1&user_id=&mars_cid=1628070214309_e7fbca2c43dda020cc7734c00466d49c&wap_consumer=a&productIds={}&scene=search&standby_id=nature&extParams=%7B%22stdSizeVids%22%3A%22%22%2C%22preheatTipsVer%22%3A%223%22%2C%22couponVer%22%3A%22v2%22%2C%22exclusivePrice%22%3A%221%22%2C%22iconSpec%22%3A%222x%22%2C%22ic2label%22%3A1%7D&context=&_=1628071156110'.format(pid)
    stuff_html = requests.get(stuff_url,headers = headers)
    # print(stuff_html.text)
    start = stuff_html.text.find('{"code"')
    end = stuff_html.text.find('"}}')+len('"}}')
    stuff_json_data = json.loads(stuff_html.text[start:end])['data']['products']
    # print(stuff_json_data)
    for stuff_data in stuff_json_data:
        title = stuff_data['title']
        price = stuff_data['price']['salePrice']
        imgurl = stuff_data['squareImage']
        print('名称:{},价格:{}元'.format(title,price))
        print(imgurl)

第五步、将数据保存到本地txt文本中

with open('{}商品信息.txt'.format(keyword),'a',encoding='utf8')as f:
    f.write('商品名称:{},价格:{}元'.format(title,price)+'\n')
    f.write('商品图片链接:{}'.format(imgurl)+'\n')

===最后把源代码奉上，原创作品，记得点赞哦，点赞的人会变帅，会变得更有钱！！！

import requests
import json
from urllib.parse import quote

def get_weipin_info():
    keyword = input('请输入想要查询的商品关键词>>>')
    pagenum = int(input('请输入页数,每页120个商品>>>'))
    for i in range(0,pagenum):
        url = 'https://mapi.vip.com/vips-mobile/rest/shopping/pc/search/product/rank?callback=getMerchandiseIds&app_name=shop_pc&app_version=4.0&warehouse=VIP_HZ&fdc_area_id=104101108&client=pc&mobile_platform=1&province_id=104101&api_key=70f71280d5d547b2a7bb370a529aeea1&user_id=&mars_cid=1628070214309_e7fbca2c43dda020cc7734c00466d49c&wap_consumer=a&standby_id=nature&keyword={}&lv3CatIds=&lv2CatIds=&lv1CatIds=&brandStoreSns=&props=&priceMin=&priceMax=&vipService=&sort=0&pageOffset={}&channelId=1&gPlatform=PC&batchSize=120&_=1628070503449'.format(quote(keyword),120*i)
        headers = {
                'referer': 'https://category.vip.com/',
                'user-agent': 'Mozilla/5.0'
        }
        html = requests.get(url,headers = headers)
        # print(html.text)
        start = html.text.find('{"code"')
        json_data = json.loads(html.text[start:-1])['data']['products']
        # print(json_data)
        for data in json_data:
            pid = data['pid']
            # print(pid)
            stuff_url = 'https://mapi.vip.com/vips-mobile/rest/shopping/pc/product/module/list/v2?callback=getMerchandiseDroplets1&app_name=shop_pc&app_version=4.0&warcallback=getMerchandiseDroplets1&app_name=shop_pc&app_version=4.0&warehouse=VIP_HZ&fdc_area_id=104101108&client=pc&mobile_platform=1&province_id=104101&api_key=70f71280d5d547b2a7bb370a529aeea1&user_id=&mars_cid=1628070214309_e7fbca2c43dda020cc7734c00466d49c&wap_consumer=a&productIds={}&scene=search&standby_id=nature&extParams=%7B%22stdSizeVids%22%3A%22%22%2C%22preheatTipsVer%22%3A%223%22%2C%22couponVer%22%3A%22v2%22%2C%22exclusivePrice%22%3A%221%22%2C%22iconSpec%22%3A%222x%22%2C%22ic2label%22%3A1%7D&context=&_=1628071156110'.format(pid)
            stuff_html = requests.get(stuff_url,headers = headers)
            # print(stuff_html.text)
            start = stuff_html.text.find('{"code"')
            end = stuff_html.text.find('"}}')+len('"}}')
            stuff_json_data = json.loads(stuff_html.text[start:end])['data']['products']
            # print(stuff_json_data)
            for stuff_data in stuff_json_data:
                title = stuff_data['title']
                price = stuff_data['price']['salePrice']
                imgurl = stuff_data['squareImage']
                print('名称:{},价格:{}元'.format(title,price))
                print(imgurl)

                with open('{}商品信息.txt'.format(keyword),'a',encoding='utf8')as f:
                    f.write('商品名称:{},价格:{}元'.format(title,price)+'\n')
                    f.write('商品图片链接:{}'.format(imgurl)+'\n')
    print('{}商品信息爬取完成'.format(keyword))

if __name__ == '__main__':
    get_weipin_info()

结果：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python爬虫实战-如何批量爬取唯品会商品信息＞＞＞的相关文章

Django REST序列化器：创建对象而不保存

我已经开始使用 Django REST 框架我想做的是使用一些 JSON 发布请求从中创建一个 Django 模型对象然后使用该对象而不保存它我的 Django 模型称为 SearchRequest 我所拥有的是 api view
如何在python中读取多个文件中的文本

我的文件夹中有许多文本文件大约有 3000 个文件每个文件中第 193 行是唯一包含重要信息的行我如何使用 python 将所有这些文件读入 1 个文本文件 os 模块中有一个名为 list dir 的函数该函数返回给定目录中所有文
将字符串转换为带有毫秒和时区的日期时间 - Python

我有以下 python 片段 from datetime import datetime timestamp 05 Jan 2015 17 47 59 000 0800 datetime object datetime strptime t
如何使用固定的 pandas 数据框进行动态 matplotlib 绘图？

我有一个名为的数据框benchmark returns and strategy returns 两者具有相同的时间跨度我想找到一种方法以漂亮的动画风格绘制数据点以便它显示逐渐加载的所有点我知道有一个matplotlib animat
Flask 和 uWSGI - 无法加载应用程序 0 (mountpoint='')（找不到可调用或导入错误）

当我尝试使用 uWSGI 启动 Flask 时出现以下错误我是这样开始的 gt cd gt root localhost uwsgi socket 127 0 0 1 6000 file path to folder run py ca
pandas 替换多个值

以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
如何在Windows上模拟socket.socketpair

标准Python函数套接字套接字对 https docs python org 3 library socket html socket socketpair不幸的是它在 Windows 上不可用从 Python 3 4 1 开始我
如何使用 Scrapy 从网站获取所有纯文本？

我希望在 HTML 呈现后可以从网站上看到所有文本我正在使用 Scrapy 框架使用 Python 工作和xpath body text 我能够获取它但是带有 HTML 标签而且我只想要文本有什么解决办法吗最简单的选择是ext
安装后 Anaconda 提示损坏

我刚刚安装张量流GPU创建单独的后环境按照以下指示here https github com antoniosehk keras tensorflow windows installation 但是安装后当我关闭提示窗口并打开新航站楼弹出
使用 Pycharm 在 Windows 下启动应用程序时出现 UnicodeDecodeError

问题是当我尝试启动应用程序 app py 时我收到以下错误 UnicodeDecodeError utf 8 编解码器无法解码位置 5 中的字节 0xb3 起始字节无效整个文件app py coding utf 8 from flask
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
Geopandas 设置几何图形：MultiPolygon“等于 len 键和值”的 ValueError

我有 2 个带有几何列的地理数据框我将一些几何图形从 1 个复制到另一个这对于多边形效果很好但对于任何有效多多边形都会返回 ValueError 请指教如何解决这个问题我不知道是否如何为什么应该更改 MultiPolygon
ExpectedFailure 被计为错误而不是通过

我在用着expectedFailure因为有一个我想记录的错误我现在无法修复但想将来再回来解决我的理解expectedFailure是它会将测试计为通过但在摘要中表示预期失败的数量为 x 类似于它如何处理跳过的 tets 但是当我
通过数据框与函数进行交互

如果我有这样的日期框架氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
Python 3 中“map”类型的对象没有 len()

我在使用 Python 3 时遇到问题我得到了 Python 2 7 代码目前我正在尝试更新它我收到错误类型错误 map 类型的对象没有 len 在这部分 str len seed candidates 在我像这样初始化它之前 se
如何将 PIL 图像转换为 NumPy 数组？

如何转换 PILImage来回转换为 NumPy 数组这样我就可以比 PIL 进行更快的像素级转换PixelAccess允许我可以通过以下方式将其转换为 NumPy 数组 pic Image open foo jpg pix numpy
如何从没有结尾的管道中读取 python 中的 stdin

当管道来自打开时不知道正确的名称我无法从 python 中的标准输入或管道读取数据文件我有作为例子管道测试 py import sys import time k 0 try for line in sys stdin k k
在 Pandas DataFrame Python 中添加新列[重复]

这个问题在这里已经有答案了例如我在 Pandas 中有数据框 Col1 Col2 A 1 B 2 C 3 现在如果我想再添加一个名为 Col3 的列并且该值基于 Col2 式中如果Col2 gt 1 则Col3为0 否则为1 所以
使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

我有一个 Pandas 数据框它有两列一列进程参数列包含字符串另一列值列包含相应的浮点值我需要过滤出部分匹配列过程参数中的一组键的子数据帧并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce
改变字典的哈希函数

按照此question https stackoverflow com questions 37100390 towards understanding dictionaries 我们知道两个不同的字典 dict 1 and dict 2例

随机推荐

关于hive中从hdfs上load数据到表中而HDFS上的数据却消失的若干问题

原链接 https blog csdn net shuaikang666 article details 80357075 今天偶然间发现hive中一个我之前没有注意到的一个小细节我怀疑你们之前也可能没有注意到那就是当我们试图从HDFS
Adding New Functions to MySQL(User-Defined Function Interface UDF、Native Function)

catalog 1 How to Add New Functions to MySQL 2 Features of the User Defined Function Interface 3 User Defined Function 4
postgres数据库相关使用说明

默认的数据库和用户名是postgres 登录 psql U postgres d postgres ctrl c q 退出数据库交互模式创建新用户 gwp createuser U postgres P d gwp 输入密码 mxq123
路由器和交换机工作原理

路由器工作原理路由器三层设备同时基于二层设备工作当数据包进到路由器时首先查看的是二层报头查看的是目标MAC 目标MAC分为三种广播组播单播广播地址解封装到三层报头组播地址每一个组播地址均存在自己的MAC地址基于目
华为OD题目：任务总执行时长

package com darling boot order od od10 import com sun org apache bcel internal generic IF ACMPEQ import java util 任务总执行时
几种I/O编程实践

1 传统的BIO编程网络编程的基本模型是Client Server模型也就是两个进程间相互通信其中服务端提供位置信息绑定的IP地址和监听端口客户端提供连接操作向服务端监听的地址发起连接请求通过三次握手建立连接如果连接建立成功
Burpsuite在Firefox中无法抓取DVWA本地数据包解决方案+导入证书

前言这几天重装了系统软件也大部分重新安装在使用bp时遇到了不能抓取dvwa数据包的情况解决方案猜想可能是浏览器自动将127 0 0 1与localhost默认选择不使用代理服务无法修改反正我没找到方案将url栏中的12
java计算下一个整5分钟时间点

需求需要获取当前时间的下一个整点时间如13 23 获取的下一个时间为 13 25 代码获取下一个分钟值以0或者5结尾的时间点单位毫秒 return public static long getNextMillisEndWithMi
机器数——源码、反码、补码

机器数源码反码补码基本定义 1 机器数是将符号数字化的数是数字在计算机中的二进制表示形式表示一个机器数应该考虑以下三个因素 1 机器数的范围 2 机器数的符号 3 机器数中小数点的位置我们这里只讨论二进制整数在计算机中的
【Java筑基】IO流基础之常见工具流和进程通信

前言作者简介半旧518 长跑型选手立志坚持写10年博客专注于java后端专栏简介深入全面系统的介绍java的基础知识文章简介本文将深入全面介绍IO流知识建议收藏备用创作不易敬请三连哦大厂真题大厂面试真题大全
Python3 入门及基础语法

文章目录解释型语言解释型语言优缺点和编译性语言的区别 Python 简介优点缺点和其他语言区别 Python 入门 Python 解释器安装 Python 继承开发环境安装第一个 Python 程序 Python 基础注释
MySql的时区（serverTimezone）引发的血案

前言 mysql8 x的jdbc升级了增加了时区 serverTimezone 属性并且不允许为空血案现场配置jdbc的URL jdbc mysql IP PORT DB characterEncoding utf8 useSSL
Unity-人物移动

Unity 人物移动人物模型参考以下视频如何在Unity中导入pmx格式的MMD模型哔哩哔哩 bilibili 用的是原神模型这里要注意导入后把人物模型的Rig换为Humanoid 人物动作使用的Unity Chan Model
iOS设备分辨率和icon尺寸

经常需要告诉设计关于iPhone的分辨和icon的需要的尺寸有时候自己也忘记了都是从文档 Human Interface Guidelines 中取的 mark一下 icon相关 Device or context Icon size
Ubuntu 22 Server安装docker

系统版本 Ubuntu 22 Server 按照如下文章进行了安装 Ubuntu 22 安装Docker环境
升级go1.18版本json-iterator coredump问题

unexpected fault address 0x0 fatal error fault signal SIGSEGV segmentation violation code 0x80 addr 0x0 pc 0x46639f goro
sqlserver千万数据查询分页

sqlserver千万数据查询分页前言废话 sqlserver 作业调用 mysql 前言废话人生开始感受到无力我不是没心没肺的人可是我心里真的不舒服 sqlserver 新建一个表 if OBJECT ID test is not
tensorflow SSD实战：基于深度学习的多目标识别

SSD SSD Single Shot MultiBox Detector 是采用单个深度神经网络模型实现目标检测和识别的方法如图2所示该方法是综合了Faster R CNN的anchor box和YOLO单个神经网络检测思路 YOLO
DataX-一款稳定高效的数据同步工具-从安装、启动、配置、使用总结，看这篇让你一步到位

前言大数据部门现阶段ETL按同步方式分为两种实时同步 DTS CloudCanal 离线同步 dataworks DI节点但CloudCanal在使用中出现了部分问题归纳总结后主要为以下几点部分使用场景获取不到binlog点位停
python爬虫实战-如何批量爬取唯品会商品信息＞＞＞

第一步打开唯品会网站 https www vip com 然后随意搜索一种商品比如键盘搜索之后下拉发现页面URL没有发生改变但是商品信息在不断加载那么这就是动态Ajax技术遇到这种情况第一反应就是找接口第二步打开开发者工

python爬虫实战-如何批量爬取唯品会商品信息＞＞＞

python爬虫实战-如何批量爬取唯品会商品信息＞＞＞ 的相关文章

随机推荐

热门标签

python爬虫实战-如何批量爬取唯品会商品信息＞＞＞的相关文章