Python——基础学习xpath（爬虫）

2023-11-05

python三种解析方法：
1.正则
2.bs4
3.xpath

Python——xpath解析：

xpath解析是最常用且最便捷高效的一种解析方法，通用性最强

xpath解析原理：
1.实例一个etree的对象，且需要将被解析的页面的源码数据加载到该对象中。
2.调用etree对象中的xpath方法结合xpath表达式实现标签的定位和内容的抓捕。
xpath安装：

pip install lxml

如何实例化一个etree对象
导包：

from lxml import etree

两种情况：

1.将本地的html文档的源码数据加载到etree的对象中。

etree.parse(file_path)

2.从互联网上获取的源码数据加载到etree对象中：

etree.HTML(‘text’)
xpath(“xpath表达式”)

第一种要有自己的（本地的）html网页，不方便写
就第二种把
随便找一个网站来爬取（4k图片）

# 导包
from lxml import etree
import os
import requests
# 进行反爬的基本处理
headers ={
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36 Edg/105.0.1343.27'   }
# 要爬取的内容的网址
url = 'https://pic.netbian.com/4kmeinv/'
# 发起请求
response = requests.get(url=url, headers=headers)
# 乱码两种解决方式
# 1. response.encoding = 'gbk'
content =response.text
tree = etree.HTML(content)
# xpath路径F12查找,图片在li中
# 爬取图片的连接
li_list = tree.xpath("//ul[@class='clearfix']/li")
# os创建文件夹
if not os.path.exists('./imgs'):
    os.mkdir('./imgs')
# 遍历每个图片进行保存    
for i in li_list:
    img_src = 'http://pic.netbian.com'+ i.xpath("./a/img/@src")[0]
    img_name = i.xpath('./a/img/@alt')[0]+'.jpg'
    # 乱码的对二种解决方法（最通用的一中解决方法））
    img_name = img_name.encode('iso-8859-1').decode('gbk')
    # print(img_name,img_src)
    #请求图片进行持久化处理
    # 对每张图片的连接发送请求进行储存
    img_text = requests.get(url=img_src,headers=headers).content
    # 图片命名
    img_path = 'imgs/'+ img_name
    with open(img_path, 'wb') as files:
        files.write(img_text)
print("下载成功")

如果不会写xpath表达式，也可以直接在你需要定位的元素上进行复制（xpath复制），效果一样。

这里只是粗略的说一下，想要好好研究的可以自己找哦

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

爬虫

学习

Python——基础学习xpath（爬虫）的相关文章

PyList_SetItem 与 PyList_SETITEM

据我所知 PyList SetItem 和 PyList SETITEM 之间的区别在于 PyList SetItem 会降低它覆盖的列表项的引用计数而 PyList SETITEM 不会我有什么理由不应该一直使用 PyList Set
Spark MLlib - 训练隐式警告

我在使用时不断看到这些警告trainImplicit WARN TaskSetManager Stage 246 contains a task of very large size 208 KB The maximum recommend
编辑 scikit-learn 决策树

我想编辑 sklearn DecisionTree 例如改变条件或切割节点叶子等但似乎没有功能可以做到这一点如果我可以导出到文件编辑它以导入如何编辑决策树环境 Windows 10 python3 3 sklearn 0 17
底图上的子图

我有一张英国地图和 121 个地点每个地点有 3 个值我想绘制 121 个位置中每个位置的三个值的小条形图目前这些值绘制为markersize属性看起来像这样密集恐惧症情节 https i stack imgur com 5fv
Python 遍历目录树的方法是什么？

我觉得分配文件和文件夹并执行 item 部分有点黑客有什么建议么我正在使用Python 3 2 from os import from os path import def dir contents path contents list
Scikit-learn 的内核 PCA：如何在 KPCA 中实现各向异性高斯内核或任何其他自定义内核？

我目前正在使用Scikit learn 的 KPCA https scikit learn org stable modules generated sklearn decomposition KernelPCA html对我的数据集执行降
为什么我的scoped_session 引发 AttributeError: 'Session' object has no attribute 'remove'

我正在尝试建立一个系统将数据库操作优雅地推迟到单独的线程以避免在 Twisted 回调期间发生阻塞到目前为止这是我的方法 from contextlib import contextmanager from sqlalchemy i
在 Flask (WSGI) 中使用全局单例，我是否需要担心竞争条件？ [复制]

这个问题在这里已经有答案了 Flask 的 hello world 演示是 from flask import Flask app Flask name app route def hello return Hello World if n
用Python中的嵌套for循环替换重复的if语句？

在我编写的下面的代码中 n 4 所以有五个 if 语句所以如果我想将 n 增加到比如说 10 那么就会有很多 if 语句因此我的问题是如何用更优雅的东西替换所有 if 语句 n p 4 5 number of trials prob
网页抓取 - 前往第 2 页

如何访问数据集的第二页无论我做什么它都只返回第 1 页 import bs4 from urllib request import urlopen as uReq from bs4 import BeautifulSoup as sou
杂乱的扭曲连接在不干净的时尚中消失了。没有代理。已经尝试过标题

我正在尝试抓取这个网站 https www5 apply2jobs com jupitermed ProfExt index cfm fuseaction mExternal searchJobs https www5 apply2jobs
在Python中删除带有重音符号的字符串中的所有非字母字符

我正在尝试使用 Python 3 7 从包含重音符号的字符串中删除所有非字母字符空格除外我尝试了以下方法 import re text 29 1981 4 2008 clean text re sub W d text print cl
如何使用 PySpark 有效地将这么多 csv 文件（大约 130,000 个）合并到一个大型数据集中？

我之前发布了这个问题并得到了一些使用 PySpark 的建议如何有效地将这一大数据集合并到一个大数据框中 https stackoverflow com questions 60259271 how can i merge this la
为什么“return self”返回 None ？ [复制]

这个问题在这里已经有答案了我正在尝试获取链的顶部节点getTopParent 当我打印出来时self name 它确实打印出了父实例的名称然而当我回来时self 它返回 None 为什么是这样 class A def init sel
Jupyter Notebook：没有名为 pandas 的模块

我搜索了其他问题但没有找到任何有帮助的内容大多数只是建议您使用 conda 或 pip 安装 pandas 在我的 jupyter 笔记本中我试图导入 pandas import pandas as pd 但我收到以下错误 Modul
为什么 bot.get_channel() 会产生 NoneType？

我正在制作一个 Discord 机器人来处理公告命令当使用该命令时我希望机器人在特定通道中发送一条消息并向用户发送一条消息以表明该命令已发送但是我无法将消息发送到频道我尝试了这段代码 import discord import
如何正确消除字典中的元素直到只剩下一个字符串

我真的需要这方面的帮助 def get winner dict winner new dict for winner in dict winner first letter winner 0 value dict winner winner
issubclass() 对从不同路径导入的同一类返回 False

目的是实现某种插件框架其中插件是同一基类即 A 的子类即 B 基类使用标准导入加载而子类使用 imp load module 从众所周知的包即 pkg 的路径加载 pkg init py mod1 py class A mod2
Python 枚举子集迭代

我想迭代以下枚举的子集 class Items enum Enum item1 0 item2 1 item3 2 item4 3 item5 4 item6 5 item7 6 item8 7 说我想 for item in Items
在Python 3.2中，我可以使用http.client打开并读取HTTPS网页，但urllib.request无法打开同一页面

我想打开并阅读https yande re https yande re with urllib request 但我收到 SSL 错误我可以使用以下方式打开并阅读页面http client用这个代码 import http client

随机推荐

启动盘制作

启动盘指的是将特殊改造过的精简Windows系统安装到一个U盘上上面有各种软件可以用来调整硬盘分区安装系统和破解密码准备一个容量8G以上的U盘里面的数据必须提前备份在制作过程中 U盘会被格式化下载微PE制作软件建议下载w
Golang实现Telnet回音服务器

码上见 package main import bufio fmt net os strings 服务端连接 func server address string exitChan chan int l err net Listen tcp
【Vue】使用Vue调起摄像头，进行拍照并能保存到本地

1 使用Vue js 把网页内容Ctrl s保存到本地然后添加到项目中 https cdn jsdelivr net npm vue dist vue jshttps cdn jsdelivr net npm vue dist vue js
最大连续子数组和(一个数组有 N 个元素，求连续子数组的最大和)

最大连续子数组和一个数组有 N 个元素求连续子数组的最大和例如 1 2 1 和最大的连续子数组为 2 1 其和为 3 输入描述输入为两行第一行一个整数n 1 lt n lt 100000 表示一共有n个元素第二行为n个数即每个
GCC编译器（1）

1 GCC简介 GCC GNU Compiler Collection 是一套功能强大性能优越的编程语言编译器它是GNU计划的代表作品之一 GCC是Linux平台下最常用的编译器 GCC原名为GNU C Compiler 即GNU C语
C#，彩票数学——彩票预测是玄学还是数学？什么是彩票分析？怎么实现彩票号码的预测？

彩票原理系列文章彩票与数学彩票预测是玄学还是数学 https mp csdn net mp blog creation editor 122517043彩票与数学常用彩票术语的统计学解释https mp csdn net mp blo
[翻译] logstash中logback的json编码器插件

翻译 logstash中logback的json编码器插件掘金
SkylineGlobe TEPro 6.6.1 二次开发导出KML或者KMZ文件示例代码

其实Skyline的fly文件跟kml文件很像很像只不过一个是编码加密的另一个早已经成为OGC的通用标准喜欢Skyline的小伙伴们试试下面的代码吧细心的人能发现彩蛋哦
ElementUI 日期范围选择器设置选择跨度一年、30天、7天

一思路利用组件的picker options object 属性以及属性下的disabledDate和onPick来实现选择日期范围跨度设置二代码实现设置选择范围跨度为一年
操作系统王道考研复习——第三章（内存管理/存储器管理）

操作系统王道考研复习第三章内存管理存储器管理 3 内存管理存储器管理 3 1 内存管理概念 3 1 1 内存管理的基本原理和要求 1 可执行程序的形成 2 程序的链接 1 静态链接 2 装入时动态链接 3 运行时动态链接 3 程序的
eosjs-ecc eos密钥和签名的javascript开发包中文文档

eosjs ecc是eos官方处理密钥和签名的javascript开发包 eosjs ecc中文文档由汇智网翻译整理访问地址 eosjs ecc中文手册
学习总结——小熊派+ESP8266

文章目录一知识点 1 小熊派 2 ESP8266 二感想 1 小熊派 2 ESP8266 三经验教训反思一知识点 1 小熊派 1 HAL库的使用 2 点亮LED灯 3 配置GPIO 4 按键输入循环查询外部中断 5 串口
【华为OD统一考试A卷

在线OJ 已购买本专栏用户请私信博主开通账号在线刷题运行出现 Runtime Error 0Aborted 请忽略华为OD统一考试A卷 B卷新题库说明 2023年5月份华为官方已经将的 2022 0223Q 1 2 3 4 统一
编程：数据开发经验

基本框架 select field1 field2 field3 field4 数据合成 T4 from 基础数据 select sum count case when condition1 condition2 as field1
WinSCP安装教程

WinSCP是适用于Windows的免费开源SFTP FTP WebDAV S3 SCP客户端它的主要功能是在本地计算机和远程计算机之间进行文件传输除此之外 WinSCP还提供脚本和基本文件管理器功能
.net @什么意思_U-Net：基于小样本的高精度医学影像语义分割模型

原论文地址 U Net Convolutional Networks for Biomedical Image Segmentation Pytorch 实现 https github com milesial Pyt orch UNet
elasticsearch地理位置总结

参考 https blog csdn net tang jian dong article details 104446526 https blog csdn net u013041642 article details 94416631
linux内核编译问题解决方法

在linux内核编译过程中可能会遇到有些文件没有的可能下面是我用gcc4 6 2编译linux2 6 30 5内核过程中提示的错误 gcc error elf i386 No such file or directory OBJCOPY
linux下select()函数

1 I O处理的模型有5种 1 gt 阻塞I O模型在这种模型下若所调用的I O函数没有完成相关的功能则会使进程挂起直到相关数据到达才会返回如常见的对管道终端网络设备进行读写时经常会出现这种情况 2 gt 非阻塞I O模型在
Python——基础学习xpath（爬虫）

python三种解析方法 1 正则 2 bs4 3 xpath Python xpath解析 xpath解析是最常用且最便捷高效的一种解析方法通用性最强 xpath解析原理 1 实例一个etree的对象且需要将被解析的页面的源码数据加载

Python——基础学习xpath（爬虫）

Python——基础学习xpath（爬虫） 的相关文章

随机推荐

热门标签

Python——基础学习xpath（爬虫）的相关文章