python数据解析——xpath爬取文字和图片

2023-10-30

xpath解析：最常用且最便捷高效的一种解析方式，通用性。

xpath解析原理：
- 1.实例化一个etree的对象，且需要将被解析的页面源码数据加载到该对象中。
- 2.调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。
环境的安装：
- pip install lxml
如何实例化一个etree对象：from lxml import etree
- 1.将本地的html文档中的源码数据加载到etree对象中：
  etree.parse(filePath)
- 2.可以将从互联网上获取的源码数据加载到该对象中
  etree.HTML(‘page_text’)
- xpath(‘xpath表达式’)
xpath表达式:
- /:表示的是从根节点开始定位。表示的是一个层级。
- //:表示的是多个层级。可以表示从任意位置开始定位。
- 属性定位：//div[@class=‘song’] tag[@attrName=“attrValue”]
- 索引定位：索引从1开始的。
- 取文本：
  - /text() 获取的是标签中直系的文本内容
  - //text() 标签中非直系的文本内容（所有的文本内容）
- 取属性：
  /@attrName ==>img/src

需求一：爬取58二手房信息 https://bj.58.com/ershoufang/
在这里插入图片描述

#!/usr/bin/env python 
# -*- coding:utf-8 -*-
import requests
from lxml import html
etree = html.etree
#需求：爬取58二手房中的房源信息
if __name__ == "__main__":
    headers = {
        'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'
    }
    #爬取到页面源码数据
    url = 'https://bj.58.com/ershoufang/'
    page_text = requests.get(url=url,headers=headers).text
    #数据解析
    tree = etree.HTML(page_text)
    #存储的就是li标签对象
    li_list = tree.xpath('//div[@class="property"]/a')
    fp = open('58.txt','w',encoding='utf-8')
    for li in li_list:
        #局部解析
        title = li.xpath('./div[2]//h3/text()')[0] + li.xpath('./div[2]/div[2]/p/span/text()')[0] + "万"
        print(title)
        fp.write(title+'\n')

在这里插入图片描述
需求二：爬取4k网图片 http://pic.netbian.com/4kmingxing/

#!/usr/bin/env python 
# -*- coding:utf-8 -*-
#需求：解析下载图片数据 http://pic.netbian.com/4kmeinv/
import requests
from lxml import html
etree = html.etree
import os
if __name__ == "__main__":
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'
    }

    # 创建一个文件夹
    if not os.path.exists('./picLibs'):
        os.mkdir('./picLibs')

    url = 'http://pic.netbian.com/4kmingxing/index_%d.html'

    for pageNum in range(1,8):
        #对应页码的url
        new_url = format(url%pageNum)

        response = requests.get(url=new_url,headers=headers)
        page_text = response.text

        #数据解析：src的属性值  alt属性
        tree = etree.HTML(page_text)
        li_list = tree.xpath('//div[@class="slist"]/ul/li')

        for li in li_list:
            img_src = 'http://pic.netbian.com'+li.xpath('./a/img/@src')[0]
            img_name = li.xpath('./a/img/@alt')[0]+'.jpg'
            #通用处理中文乱码的解决方案
            img_name = img_name.encode('iso-8859-1').decode('gbk')

            # print(img_name,img_src)
            #请求图片进行持久化存储
            img_data = requests.get(url=img_src,headers=headers).content
            img_path = 'picLibs/'+img_name
            with open(img_path,'wb') as fp:
                fp.write(img_data)
                print(img_name,'下载成功！！！')

在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python数据解析——xpath爬取文字和图片的相关文章

Erlang：到 Python 实例的端口没有响应

我正在尝试通过 Erlang 端口与外部 python 进程进行通信首先打开一个端口然后通过 stdin 将消息发送到外部进程我期待在进程的标准输出上得到相应的答复我的尝试如下所示 open a port Port open po
Python Pandas 滚动聚合一列列表

我有一个简单的数据框 df 和一列列表lists 我想根据以下内容生成一个附加列lists The df好像 import pandas as pd lists 1 1 2 1 2 3 3 2 9 7 9 4 2 7 3 5 create
Flask-SocketIO redis 订阅

我在用着https github com miguelgrinberg Flask SocketIO https github com miguelgrinberg Flask SocketIO实现 WebSocket 服务器我需要从另一
如何同时运行多个功能[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有以下代码 my func1 my func2 my func3 my func4 my func5 是否可以同时计算函数的数据而
从内存地址创建python对象（使用gi.repository）

有时我需要调用仅存在于 C 中的 gtk gobject 函数但返回一个具有 python 包装器的对象之前我使用过基于 ctypes 的解决方案效果很好现在我从 PyGtk import gtk 切换到 GObject intro
使用管理员权限打开cmd（Windows 10）

我有自己的 python 脚本来管理我的计算机上的 IP 地址它主要在命令行 Windows 10 中执行netsh命令您必须具有管理员权限这是我自己的计算机我是管理员运行脚本时我已经使用管理员类型的用户 Adrian 登录我无
Python Requests 库重定向新 url

我一直在浏览 Python 请求文档但看不到我想要实现的任何功能在我的脚本中我设置allow redirects True 我想知道该页面是否已重定向到其他内容新的 URL 是什么例如如果起始 URL 为 www google c
Python3将模块从文件夹导入到另一个文件夹

我的结构字典是 mainFolder folder1 init py file1 py file2 py folder2 init py file3 py file4 py setup py init py 我需要将 file4 py 从f
Python Selenium 打印另存为 PDF 等待文件名输入

我正在尝试通过打印对话框将网站另存为 PDF 我的代码允许我另存为pdf 但要求我输入文件名我不知道如何将文件名传递到弹出框附上我的代码 import time from selenium import webdriver import
为什么需要设置WORKON_HOME环境变量？

我已经有一段时间没有使用 python 虚拟环境了但我也安装了虚拟环境包装器我的问题是在文档页面中它说要这样做 export WORKON HOME Envs mkdir p WORKON HOME source usr local
无法通过 Android 应用程序访问我的笔记本电脑的本地主机

因此我在发布此内容之前做了一项研究我发现的解决方案不起作用更准确地说连接到我的笔记本电脑的 IPv4192 168 XXX XXX 没用连接到10 0 2 2 加上端口不起作用我需要测试使用 Django Rest 框架构建的
在 django 中导入设置时出现奇怪的错误

我有很多项目在 ubuntu 中使用 python2 7 和 virtualenv virtualenvwrapper 工作在我的工作中一些开发人员使用 macosx 和 windows 通常我像往常一样创建项目 django admi
Eclipse/PyDev 中未使用导入警告，尽管已使用

我正在我的文件中导入一个绘图包如下所示 import matplotlib pyplot as plt 稍后我会在我的代码中成功使用此导入 fig plt figure figsize 16 10 然而 Eclipse 告诉我未使用的导
Python：导入模块一次然后与多个文件共享

我有如下文件 file1 py file2 py file3 py 假设这三个都使用 lib7 py lib8 py lib9 py 目前这三个文件中的每一个都有以下行 import lib7 import lib8 import lib
如何创建增量加载网页

我正在编写一个处理大量数据的页面它会永远持续到我的结果页面加载几乎无限因为返回的数据太大了因此我需要实现一个增量加载页面例如 url 中的页面 http docs python org http docs python org
如何在引发异常时将变量传递给异常并在异常时检索它？

现在我只有一个空白的异常类我想知道如何在引发变量时给它一个变量然后在 try except 中处理它时检索该变量 class ExampleException Exception pass 为其构造函数提供一个参数将其存储为属性然后
为什么从 openAI 导入 Universe 模块时出现“无效语法”错误

当我导入时universe来自 openAI 的模块我收到以下错误 Traceback most recent call last File
PyQt5按钮lambda变量变成布尔值[重复]

这个问题在这里已经有答案了当我运行下面的代码时它显示如下为什么 x 不是 x 而是变成布尔值这种情况仅发生在传递到用 lambda 调用的函数中的第一个参数上错误的 y home me model some file from P
检查 IP 地址是否在给定范围内

我想检查一下是否有IP180 179 77 11位于特定范围之间例如180 179 0 0 180 179 255 255 我编写了一个函数它将每个 IP 八位字节与其他八位字节进行比较 def match mask IP min ip
Chrome 驱动程序和 Chromium 二进制文件无法在 aws lambda 上运行

我陷入了一个问题我需要在 AWS lambda 上做一些抓取工作所以我按照下面提到的博客及其代码库作为起点这非常有帮助并且在运行时环境 Python 3 6 的 AWS lambda 上对我来说工作得很好 https manivan

随机推荐

自定view实践(一) 自定义loadingView

昨天同事遇到如下效果的加载view 实现了一下 1 首先创建一个类继承view public ProgreesView Context context this context null public ProgreesView Contex
html 修改mate标签禁止页面缩放

html5 默认的mate标签禁止时可以修改成这样就可以解决移动端双击或者两根手指滑动是页面方大或者缩小的问题了
目标检测：OneNet: Towards End-to-End One-Stage Object Detection

目录算法介绍算法训练算法介绍 OneNet算法的优点 1 全卷积端到端没有ROI 操作也没有 attention 机制 2 标签分配是通过最小代价策略不需要复杂的人工设计或者启发 3 没有任何后处理比如 NMS max po
本月与上月对比公式_Tableau 环比 for 本月某一段时间与上月同一段时间

来源 https interworks com blog estam 2017 04 05 compare incomplete month same days previous month tableau April 5 2017 by
前端html2canvas和dom-to-image实现截图功能

目录需求历劫过程截图知识点 html2canvas 文档地址封装使用教程 dom to image more 文档地址封装使用教程解决跨域问题以下是我花了大把时间薅秃头得出来的最终结果 dom to image more
自己做的负离子源供气系统的stm32 项目架构讲解

前景为了准备校招熟悉下自己的项目项目架构 1 电源部分 STM32 正负3 3供电程序下载5V 光接收 0 5V AD电压采集正负15V 2 程序下载串口 CH340 UART协议 3 光接收光纤接收 75452与非门提高驱
std::result_of实现分组group by的功能

工作中有时候需要对相同的条件进行分类比如同名的同年龄的添加头文件 include
nuitka打包的exe比用pyinstaller打包的exe运行速度快？

自从使用pyinstaller 打包后总感觉 pyinstaller 打的exe文件体积太大运行速度差强人意经朋友推荐正自尝试使用 nuitka 关于nuitka的使用知呼上有兄弟贴了使用教程如下地址先给个nuitka官方帮助文
人工智能系列-Python系列（一）初始与入门

转载请注明预见才能遇见的博客 http my csdn net 原文地址 https blog csdn net pcaxb article details 90633523 人工智能系列 Python系列一初始与入门目录人工智能系
2023华为OD机试真题Java实现【动态规划/基站维护最短距离】

参考代码小王是一名基站维护工程师负责某区域的基站维护某地方有n个基站 1
小米3c路由器拆机_Redmi 9通过FCC认证；小米手环5曝光；小米路由器AX1800发布

早在5月9日就有人在小米海外官网上发现了Redmi 9 并且该机已经获得无线射频认证型号为M2004J19G 而在今天 Redmi 9通过了FCC认证从FCC文档上我们可以发现 Redmi 9配备了5000mAh大容量电池结合此前卢
spring boot(四)：thymeleaf使用详解

在上篇文章springboot 二 web综合开发中简单介绍了一下thymeleaf 这篇文章将更加全面详细的介绍thymeleaf的使用 thymeleaf 是新一代的模板引擎在spring4 0中推荐使用thymeleaf来做前端模版
IPV6学习笔记之IPV6地址结构

IPV6 地址介绍 IPV6地址结构为前缀接口标识前缀相当于IPV4中的网络ID 接口标识相当于主机ID IPv6地址共128 bit 分为8个16bit的块中间用冒号隔开例如 2001 0DB8 0000 0000 02AA F
字符串处理专题

codeup习题文章目录 codeup习题 Problem A 字符串连接 Problem B 首字母大写 Problem C 字符串的查找删除 Problem D 单词替换 Problem E 字符串去特定字符 Problem F 数组
巴比特

摘要据钛媒体报道 8月4日华为在开发者大会上发布了HarmonyOS 4系统通过盘古大模型的加持智慧助手小艺将具备AI大模型能力就在华为发布HarmonyOS 4系统一周后小米大模型也浮出水面其开发的大规模预训练语言模型MiL
JSP相关学习——JavaScript事件处理

JavaScript事件处理一什么是事件处理程序 JavaScript可以以事件驱动的方式直接对客户端的输入作出响应无须经过服务器端程序也就是说 JavaScript是事件驱动的二事件类型三事件处理程序的调用方式一将事件
一文带你实现刷新页面数据不丢失(操作状态保留)效果

页面刷新后对数据的操作状态进行保留也就是页面刷新数据不丢失效果是我们对前端项目开发中一个算是比较基本的效果了其实实现的话也是很简单的今天就来带你一文彻底弄懂此效果的实现其实总结起来有以下三个比较重要的点 1 监听要保留状态的数据
【文献管理】Zotero基础操作

文献管理 Zotero基础操作文章目录文献管理 Zotero基础操作一安装注册二文献导入 1 新建文件夹 2 导入方式三文献管理 1 添加标签 2 添加笔记 3 添加插件四数据管理与同步 1 数据存放位置 2 数据备份
操作系统模拟页面调度算法（OPT、FIFO、LRU）演示（vc6.0调试通过）

PageSwitch cpp Defines the entry point for the console application include stdafx h 请分别用FIFO OPT算法实现页面置换的模拟模拟程序的要求如下
python数据解析——xpath爬取文字和图片

xpath解析最常用且最便捷高效的一种解析方式通用性 xpath解析原理 1 实例化一个etree的对象且需要将被解析的页面源码数据加载到该对象中 2 调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕

python数据解析——xpath爬取文字和图片

python数据解析——xpath爬取文字和图片 的相关文章

随机推荐

热门标签

python数据解析——xpath爬取文字和图片的相关文章