selenium_获取京东商品价格

2023-11-17

import time
from selenium.webdriver.chrome.options import Options
from selenium.webdriver import Chrome
from selenium.webdriver.common.by import By
from pymongo import MongoClient
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import WebDriverWait
import urllib

options = Options()

# 开启无界面模式
options.add_argument('--headless')
web = Chrome(options=options)


def get_save_goods():
    # 输入要搜索的商品名称
    good_name = input('请输入你要爬取的商品名称:')
    # 编码加入到url中
    good_name_unicode = urllib.parse.quote(good_name)
    url = f'https://search.jd.com/Search?keyword={good_name_unicode}'
    web.get(url)
    # 设置等待时间
    WAIT = WebDriverWait(web, 10)

    while True:
        # 新的商品页等待3秒
        time.sleep(3)
        # 隐式等待 根据下面要查询的元素 10s未找到就报错
        # web.implicitly_wait(10)

        # 获取爬取的页数
        page = WAIT.until(EC.element_to_be_clickable((By.XPATH, '//span/a[@class="curr"]'))).text
        print(f'开始爬取第{page}页')

        # 获取商品信息的列表
        li_lists = web.find_elements(By.XPATH, '//div[@id="J_goodsList"]/ul/li')
        print(len(li_lists))

        # 用xpath获取各个商品的信息
        for li_list in li_lists:

            name = WAIT.until(EC.element_to_be_clickable(li_list.find_element(By.XPATH, './/div[@class="p-name p-name-type-2"]/a/em'))).text.replace('\n', '')

            join_name = ''.join(name)

            link = WAIT.until(EC.element_to_be_clickable(li_list.find_element(By.XPATH, './/div[@class="p-name p-name-type-2"]/a'))).get_attribute('href')

            price = WAIT.until(EC.element_to_be_clickable(li_list.find_element(By.XPATH, './/div[@class="p-price"]//i'))).text


            try: # 有的商品没有显示厂家
                shop = WAIT.until(EC.element_to_be_clickable(li_list.find_element(By.XPATH, './/div[@class="p-shop"]//a'))).text
            except:
                shop = '厂家配送'

            comment = WAIT.until(EC.element_to_be_clickable(li_list.find_element(By.CSS_SELECTOR, '.p-commit a'))).text
            data = {
                '商品名称': name,
                '商品链接': link,
                '价格': price,
                '商店名称': shop,
                '评论': comment
            }
            # 储存到mongodb
            print(data)
            client = MongoClient(host='localhost', port=27017)
            # 库
            db = client['jd']
            # 表
            collections = db[good_name]
            # 插入数据
            collections.insert_one(data)

        # 爬完5页停止
        if int(page) == 5:
            break
        #     点击下一页
        js = WAIT.until(EC.element_to_be_clickable(web.find_element(By.XPATH, '//a[@class="pn-next"]')))
        js.click()

        # 等待加载完毕
        time.sleep(2)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫

selenium

python

Chrome

selenium_获取京东商品价格的相关文章

OpenCV Python cv2.mixChannels()

我试图将其从 C 转换为 Python 但它给出了不同的色调结果 In C Transform it to HSV cvtColor src hsv CV BGR2HSV Use only the Hue value hue create
如何在flask中使用g.user全局

据我了解 Flask 中的 g 变量它应该为我提供一个全局位置来存储数据例如登录后保存当前用户它是否正确我希望我的导航在登录后在整个网站上显示我的用户名我的观点包含 from Flask import g among other
Python（Selenium）：如何通过登录重定向/组织登录登录网站

我不是专业程序员所以请原谅任何愚蠢的错误我正在做一些研究我正在尝试使用 Selenium 登录数据库来搜索大约 1000 个术语我有两个问题 1 重定向到组织登录页面后如何使用 Selenium 登录 2 如何检索数据库在我解决
Django：按钮链接

我是一名 Django 新手用户尝试创建一个按钮单击该按钮会链接到我网站中的另一个页面我尝试了一些不同的例子但似乎没有一个对我有用举个例子为什么这不起作用
PyUSB 1.0：NotImplementedError：此平台不支持或未实现操作

我刚刚开始使用 pyusb 基本上我正在玩示例代码here https github com walac pyusb blob master docs tutorial rst 我使用的是 Windows 7 64 位并从以下地址下载 z
python 相当于 R 中的 get() （= 使用字符串检索符号的值）

在 R 中 get s 函数检索名称存储在字符变量向量中的符号的值s e g X lt 10 r lt XVI s lt substr r 1 1 X get s 10 取罗马数字的第一个符号r并将其转换为其等效整数尽管花了一些时间翻
根据列值突出显示数据框中的行？

假设我有这样的数据框 col1 col2 col3 col4 0 A A 1 pass 2 1 A A 2 pass 4 2 A A 1 fail 4 3 A A 1 fail 5 4 A A 1 pass 3 5 A A 2 fail 2
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
如何加速Python中的N维区间树？

考虑以下问题给定一组n间隔和一组m浮点数对于每个浮点数确定包含该浮点数的区间子集这个问题已经通过构建一个解决区间树 https en wikipedia org wiki Interval tree 或称为范围树或线段树已经针对一
如何使用 OpencV 从 Firebase 读取图像？

有没有使用 OpenCV 从 Firebase 读取图像的想法或者我必须先下载图片然后从本地文件夹执行 cv imread 功能有什么办法我可以使用cv imread link of picture from firebase 您可以
绘制方程

我正在尝试创建一个函数它将绘制我告诉它的任何公式 import numpy as np import matplotlib pyplot as plt def graph formula x range x np array x rang
如何在ipywidget按钮中显示全文？

我正在创建一个ipywidget带有一些文本的按钮但按钮中未显示全文我使用的代码如下 import ipywidgets as widgets from IPython display import display button wid
在Python中获取文件描述符的位置

比如说我有一个原始数字文件描述符我需要根据它获取文件中的当前位置 import os psutil some code that works with file lp lib open path to file p psutil Pro
使用 \r 并打印一些文本后如何清除控制台中的一行？

对于我当前的项目有一些代码很慢并且我无法使其更快为了获得一些关于已完成必须完成多少的反馈我创建了一个进度片段您可以在下面看到当你看到最后一行时 sys stdout write r100 80 n I use 80覆盖最终剩余的
如何在Python中对类别进行加权随机抽样

给定一个元组列表其中每个元组都包含一个概率和一个项目我想根据其概率对项目进行采样例如给出列表 3 a 4 b 3 c 我想在 40 的时间内对 b 进行采样在 python 中执行此操作的规范方法是什么我查看了 random 模
如何在seaborn displot中使用hist_kws

我想在同一图中用不同的颜色绘制直方图和 kde 线我想为直方图设置绿色为 kde 线设置蓝色我设法弄清楚使用 line kws 来更改 kde 线条颜色但 hist kws 不适用于显示我尝试过使用 histplot 但我无法为
对年龄列进行分组/分类

我有一个数据框说df有一个柱子 Ages gt gt gt df Age 0 22 1 38 2 26 3 35 4 35 5 1 6 54 我想对这个年龄段进行分组并创建一个像这样的新专栏 If age gt 0 age lt 2 the
Conda SafetyError：文件大小不正确

使用创建 Conda 环境时conda create n env name python 3 6 我收到以下警告 Preparing transaction done Verifying transaction SafetyError Th
Python：如何将列表列表的元素转换为无向图？

我有一个程序可以检索 PubMed 出版物列表并希望构建一个共同作者图这意味着对于每篇文章我想将每个作者如果尚未存在添加为顶点并添加无向边或增加每个合著者之间的权重我设法编写了第一个程序该程序检索每个出版物的作者列表并
Rocket UniData/UniVerse：ODBC 无法分配足够的内存

每当我尝试使用pyodbc连接到 Rocket UniData UniVerse 数据时我不断遇到错误 pyodbc Error 00000 00000 Rocket U2 U2ODBC 0302810 Unable to allocate

随机推荐

CH3-HarmonyOS开发基础

文章目录背景目标一 APP 1 1 APP包组成 1 2 APP和HAP结构二 Ability 2 1 Ability 2 2 pack info 三 libs库文件 3 1 HAR 四 resources资源文件 4 1 reso
shiro框架---关于用户登录退出接口的介绍

接上一篇文章shiro框架 shiro配置用户名和密码的注意项目已分享到GitHub上如果需要的可以看下 springboot shiro项目Git下载地址在我前几篇文章里有shiro配置的文件下载包下载后里边有四个配置文件Shir
618省心凑背后的新算法——个性化凑单商品打包购推荐

作为购物导购链路的一个重要环节凑单旨在快速帮助用户找到达成某个满减门槛比如满300减50 的商品完成性价比最高的跨店组合结算前言背景凑单是一个历史悠久的场景伴随着长期优化并不断升级为用户决策提供了便捷通道作为购物导购链路的
Nginx部署前端，并转发2个后台，实现负载均衡

一 vue打包 cmd进入项目目录执行 npm run build 会在改目录生成dist文件假设dist目录是 D dist 二部署下载nginx 修改nginx conf 在http 中加入 upstream myapp1 se
在SQL中直接使用存储过程查询返回的结果集

在实际使用存储过程是有时我们希望先判断存储过程的返回结果集是否有记录然后走不同的业务逻辑这是就需要在SQL语句中直接读取到存储过程的返回结果集方式如下先按照存储过程结果集定义一个变量 declare tbl table 门诊号 v
js预编译（与C预处理区别）

目录 1 函数体内例 2 全局注 window 属性和 imply global属性 3 全局和函数体内结合优先顺序例1 例2 例3 重要提示第一次学的时候以为和C预处理差不多看了下才发现区别还蛮大的例1 test 打印出 a
说一下Photo服务器

误打误撞学习了一下Photo服务器自己去百度上找有些问题大家也没说清楚所以在这里补充说明一下现在Photo官网已经更新到4 0 29 说不定有更新了但是很多教程都是Photo3 0的版本虽然大体还是差不多但是对于初学者来说还
mysql useunicode_jdbc连接mysql 为什么在连接时已经这样设置了 ?useUnicode=true&characterEncodin...

jdbc连接mysql 为什么在连接时已经这样设置了 useUnicode true characterEncoding UTF 8 autoReconnect true maxReconnects 10 autoReconnectForP
Python 并发系列 2 —— 各种并发方案的选择

目录二异步 Python 不同形式的并发 2 1 术语定义同步 Sync vs 异步 Async 并发 Concurrency vs 并行 Parallelism 2 2 线程 Threads 进程 Processes Threads
Nginx代理规则总结

Nginx代理规则总结说明一 location 二 proxy pass 1 proxy pass包括ip和资源路径结尾没有 2 proxy pass包括ip和资源路径结尾有 3 proxy pass只包括ip 结尾有 4 prox
docker 中PyTorch训练时，Dataloader卡死、挂起，跑一个epoch停了，问题解决方案

no space left on device shm 被占满了直接设为8G
二十三种设计模式第二十篇--备忘录模式

备忘录模式备忘录模式属于行为型模式它允许在不破坏封装的情况下捕获和恢复对象的内部状态保存一个对象的某个状态以便在适当的时候恢复对象该模式通过创建一个备忘录对象来保存原始对象的状态并将其存储在一个负责管理备忘录的负责人对象中备忘
【转】awk、nawk、mawk、gawk的简答介绍

转载 http blog sina com cn s blog 3d2d79aa0100h47h html awk 是一种编程语言用于在linux unix下对文本和数据进行处理数据可以来自标准输入一个或多个文件或其它命令的输出即
Springboot 2 的@RequestParam接收数组异常解决！！！

最近Vue 开发前端然后向后台springboot 2 传递数组发现springboot 2 接收数组方式无法使用 RequestParam ids List
Python中的三器一闭(详细版)

python中的三器一闭迭代器什么是迭代什么是可迭代对象判断数据是否可迭代什么是迭代器迭代器的本质使用迭代器取数据自定义迭代器生成器创建生产器的方法关键字yield next和send 装饰器装饰器的功能定义装饰器
通过双层负载均衡实现HTTPS代理的高并发处理和容错能力

在互联网应用中 HTTPS代理服务器是承担用户请求的重要角色当网站面临高并发请求时单一的服务器可能无法满足需求会导致性能下降和容错能力不足为了解决这个问题我们可以通过双层负载均衡技术来实现高并发处理和容错能力的提升下面让我们一
VMware16安装虚拟机遇到的问题

摘要前面提到自己安装环境为CPU Intel Core i5 12600K VMware 版本 VMware Workstation 16 Pro 16 0 0 build 16894299 创建虚拟机的时候windwos 系列的win7
GVM(openVAS)中scan configs为空的问题解决

一主要问题由于kali2021的版本不自带openVAS 在kali2021中安装gvm 原openVAS 安装完成后检查配置 gvm check setup 没有问题却在打开web控制页面后创建任务失败报错 Failed to f
ssd颗粒查看工具_贴吧机佬强烈推荐的游戏SSD？西数蓝盘3D M.2 500G实测

现在的SSD有多白菜打开电商网站看一下各种国产甚至是知名电脑厂商的SSD只要几毛钱1GB 存储界的大品牌也有爆款型号来到了1元1GB左右虽然以上说的都是2 5寸SSD 不是高性能产品不过这些都很适合老主机升级或者系统盘容量不够用
selenium_获取京东商品价格

import time from selenium webdriver chrome options import Options from selenium webdriver import Chrome from selenium we

selenium_获取京东商品价格

selenium_获取京东商品价格 的相关文章

随机推荐

热门标签

selenium_获取京东商品价格的相关文章