爬虫实例十一 全国城市房价排行

2023-11-19

目标网址:
https://www.creprice.cn/rank/index.html

这一看就是个静态页面,没有用任何反爬措施所以很好爬。
直接发送请求解析数据就可以了。

完整代码

import requests
from lxml import etree
import openpyxl

#新建workbook对象
wb=openpyxl.Workbook()
#创建正在操作的表
sheet = wb.active
#设置sheet表格的表头
sheet.append(['序号','城市名称','平均单价','环比','同比'])


url="https://www.creprice.cn/rank/index.html"
headers={
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36"
}
html=requests.get(url=url,headers=headers).text
tree=etree.HTML(html)
number=tree.xpath("//tbody[@class='ranklist']/tr/th[1]/text()")[1::]
city_name=tree.xpath("//tbody[@class='ranklist']/tr/th[2]/a/text()")
price=tree.xpath("//tbody[@class='ranklist']/tr/th[3]/text()")[1::]
Hb=tree.xpath("//tbody[@class='ranklist']/tr/th[4]/text()")[1::]
Tb=tree.xpath("//tbody[@class='ranklist']/tr/th[5]/text()")[1::]
for i in range(0,len(city_name)):
    data = []
    data.append(number[i])
    data.append(city_name[i])
    data.append(price[i])
    data.append(Hb[i])
    data.append(Tb[i])
    print(data)
    sheet.append(data)
wb.save('房价排行.xlsx')


解析:
进入网站打开开发者工具后我们直接可以看到网页源代码,直接就能请求下来
在这里插入图片描述
这基本全是html代码
所以我们首选xpath来解析数据,用正则在这里反而有点麻烦
在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫实例十一 全国城市房价排行 的相关文章

随机推荐

  • Spark的常用概念总结

    提示 文章写完后 目录可以自动生成 如何生成可参考右边的帮助文档 文章目录 前言 一 基本概念 1 RDD的生成 2 RDD的存储 3 Dependency 4 Transformation和Action 4 1 Transformatio
  • 剑指Offer - 面试题25:合并俩个排序的链表

    题目 输入俩个递增排序的链表 合并这俩个链表并使新链表中的节点仍然是递增序列 例如下图链表1和链表2 合并后的升序链表为链表3 链表节点定义如下 typedef int TElemType 链表节点值的数据类型 struct ListNod
  • python 期货交易接口_量化交易 – 期货CTP接口与程序化(量化交易)的对接 1

    很多人写CTP都是为了自动交易 费好大劲 对多个策略进行历史测试 实盘运行 能随意编写策略 想改就改 想加就加 测试时 要能随意选择合约 周期 时间范围 参数范围 能随意设置滑点量 手续费 盘口差 保证金率 还有 要有组合测试 我要多合约
  • 若依框架前后端如何改端口号

    前端 在ruoyi ui中的vue config js中 下图为前端启动端口 下图为连接的后端接口 原理 为解决跨域问题 若依使用前端的反向代理 url请求前端进行代理 映射到后端 此处为dev模式 统一用proxy代理 因此只需修改内部的
  • 解决tqdm在jupyter中报错ImportError: IProgress not found. Please update jupyter and ipywidgets.

    解决方案 gt gt gt pip3 install ipywidgets
  • Qt5中使用lambda表达式

    Qt5中使用lambda表达式 https www cnblogs com yuankaituo p 5135750 html 利用lambda表达式实现点击按钮 关闭窗口或者传输信号 QPushbutton btn new QPushbu
  • 2020牛客多校第十场 E. Game

    题解 实际上从左往右先把所有能推到左边的都尽量平分到到这一部分去 即前缀和 s u m sum sum平分到 l r
  • 6.10行为型---备忘录模式

    每个人都有犯错误的时候 都希望有种 后悔药 能弥补自己的过失 让自己重新开始 但现实是残酷的 在计算机应用中 客户同样会常常犯错误 能否提供 后悔药 给他们呢 当然是可以的 而且是有必要的 这个功能由 备忘录模式 来实现 其实很多应用软件都
  • vscode远程连接失败解决方案

    vscode远程连接在更新了配置文件或者密钥信息更新后可能会出现远程连接失败 过程试图写入的管道不存在 该问题的主要有以下三种解决方案 1 在vscode SSH扩展设置中配置config文件的绝对位置 该文件一般位于 ssh文件夹中 C
  • CTF.show:web10

    和web9一样 先查看一下源码 右键查看源代码 进入style css 发现有index phps 在url处输入后 查看源码得到
  • MyBatis的增删改查操作(基于xml)

    文章目录 一 注意事项 1 占位符 2 增 删 改的返回值 3 查询操作 二 操作 1 新增 1 单条 2 批量 2 查询 1 多条记录 多字段 2 多条记录 单字段 3 单条记录 4 模糊查询 5 聚合值 6 返回列中包含查询参数 3 修
  • SpringBoot(3)整合MyBatis 和MybatisPlus

    SpringBoot 3 整合MyBatis 和MybatisPlus 1 整合MyBatis 1 1新建模块 1 2在pom xml中添加mysql驱动 1 2 1防止编译时不将静态资源编译进去 在pom xml中添加 1 3 appli
  • 【数值计算之二】数值积分之牛顿——科斯特公式:梯形、辛普森、辛普森3/8和布尔 & 高斯积分公式:勒让德、切比雪夫、拉盖尔和埃尔米特

    import numpy as np from scipy integrate import quad from sympy import init printing import matplotlib pyplot as plt 数值积分
  • Rust全局变量

    在Rust中 全局变量可以分为两种 编译期初始化的全局变量 const创建常量 static创建静态变量 Atomic创建原子类型 运行期初始化的全局变量 lazy static用于懒初始化 Box leak利用内存泄漏将一个变量的生命周期
  • non-protected broadcast场景分析及解决

    non protected broadcast场景分析及解决 在两个app之间互相送消息使用BroadcastReceiver 有时在运行过程中在logcat工具中会发现大片的飘红消息 要消除这些错误信息 需要在广播的 Sender 和 R
  • WSL和VMware不兼容,安装了WSL之后VMware启动不起来

    WSL依赖于hyper v必须开启 而VMware不依赖这个 必须关闭 CMD管理员模式启动 输入bcdedit set hypervisorlaunchtype auto开启 则可以使用WSL CMD管理员模式启动 输入bcdedit s
  • ubuntn 下安装nginx 报错 ./configure: error: C compiler cc is not found

    原因是 error C compiler cc is not found c编译器没有安装 解决办法 需要安装编译工具及库文件 网址很多文章没有详细写nginx 安装教程 跟着教程敲命令然后出错了 安装nginx需要安装编译工具及库文件参考
  • 分布式锁解决方案_Zookeeper分布式锁原理

    通过召zk实现分布式锁可靠性时最高的 公平锁和可重入锁的原理 取水秩序 1 取水之前 先取号 2 号排在前面的 就可以先取水 3 先到的排在前面 那些后到的 一个一个挨着 在井边排成一队 公平锁 这种排队取水模型 就是一种锁的模型 什么是可
  • docker遇到问题集合

    1 docker images下删除镜像提示image is being used by stopped container 1b817324f96a 依次执行下面命令 docker ps a grep Exited awk print 1
  • 爬虫实例十一 全国城市房价排行

    目标网址 https www creprice cn rank index html 这一看就是个静态页面 没有用任何反爬措施所以很好爬 直接发送请求解析数据就可以了 完整代码 import requests from lxml impor