爬虫实例十一全国城市房价排行

2023-11-19

目标网址：
https://www.creprice.cn/rank/index.html

这一看就是个静态页面，没有用任何反爬措施所以很好爬。
直接发送请求解析数据就可以了。

完整代码

import requests
from lxml import etree
import openpyxl

#新建workbook对象
wb=openpyxl.Workbook()
#创建正在操作的表
sheet = wb.active
#设置sheet表格的表头
sheet.append(['序号','城市名称','平均单价','环比','同比'])


url="https://www.creprice.cn/rank/index.html"
headers={
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36"
}
html=requests.get(url=url,headers=headers).text
tree=etree.HTML(html)
number=tree.xpath("//tbody[@class='ranklist']/tr/th[1]/text()")[1::]
city_name=tree.xpath("//tbody[@class='ranklist']/tr/th[2]/a/text()")
price=tree.xpath("//tbody[@class='ranklist']/tr/th[3]/text()")[1::]
Hb=tree.xpath("//tbody[@class='ranklist']/tr/th[4]/text()")[1::]
Tb=tree.xpath("//tbody[@class='ranklist']/tr/th[5]/text()")[1::]
for i in range(0,len(city_name)):
    data = []
    data.append(number[i])
    data.append(city_name[i])
    data.append(price[i])
    data.append(Hb[i])
    data.append(Tb[i])
    print(data)
    sheet.append(data)
wb.save('房价排行.xlsx')

解析：
进入网站打开开发者工具后我们直接可以看到网页源代码，直接就能请求下来
在这里插入图片描述
这基本全是html代码
所以我们首选xpath来解析数据，用正则在这里反而有点麻烦

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Requests

python

爬虫实例十一全国城市房价排行的相关文章

使用 MongoDB 作为我们的主数据库，我应该使用单独的图数据库来实现实体之间的关系吗？

我们目前正在为一家专业公司内部实施类似 CRM 的解决方案由于存储信息的性质以及信息的不同值和键我们决定使用文档存储数据库因为它完全适合目的在本例中我们选择 MongoDB 作为此 CRM 解决方案的一部分我们希望存储实体之间的关
Python 类型提示 Dict 语法错误可变默认值是不允许的。使用“默认工厂”

我不知道为什么解释器会抱怨这个类型的字典对于这两个实例我得到一个不允许可变默认值使用默认工厂语法错误我使用的是 python 3 7 3 from dataclasses import dataclass from typing
如何在 __init__ 中使用await设置类属性

我如何定义一个类await在构造函数或类体中例如我想要的 import asyncio some code class Foo object async def init self settings self settings setti
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
从Django中具有外键关系的两个表中检索数据？ [复制]

这个问题在这里已经有答案了 This is my models py file from django db import models class Author models Model first name models CharFie
在 Django Admin 中调整字段大小

在管理上添加或编辑条目时 Django 倾向于填充水平空间但在某些情况下当编辑 8 个字符宽的日期字段或 6 或 8 个字符的 CharField 时这确实是一种空间浪费字符宽然后编辑框最多可容纳 15 或 20 个字符我如何告
更好地相当于这个疯狂的嵌套 python for 循环

for a in map for b in map a for c in map b for d in map c for e in map d print a b c d e 上面的代码用于创建图中一定长度的所有路径 map a 表示从
为什么一旦我离开内置的运行服务器，Django 就无法找到我的管理媒体文件？

当我使用内置的简单服务器时一切正常管理界面很漂亮 python manage py runserver 但是当我尝试使用 wsgi 服务器为我的应用程序提供服务时django core handlers wsgi WSGIHandle
嵌套作用域和 Lambda

def funct x 4 action lambda n x n return action x funct print x 2 prints 16 我不太明白为什么2会自动分配给n n是返回的匿名函数的参数funct 完全等价的定义fu
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
如何使用 Python 3 检查目录是否包含文件

我到处寻找这个答案但找不到我正在尝试编写一个脚本来搜索特定的子文件夹然后检查它是否包含任何文件如果包含则写出该文件夹的路径我已经弄清楚了子文件夹搜索部分但检查文件却难倒了我我发现了有关如何检查文件夹是否为空的多个建议并且我尝
Protobuf 如何编码 oneof 消息结构

对于这个 python 程序在编码时运行 protobuf 编码会给出以下输出 0a 10 08 7f8a 0104 08 02 10 0392 0104 08 02 10 03 18 01 我不明白的是为什么8a后面有一个01 为什么9
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
为什么 csv.DictReader 给我一个无属性错误？

我的 CSV 文件是 200 Service 我放入解释器的代码是 snav csv DictReader open screennavigation csv delimiter print snav fieldnames 200 for
python 中的“槽包装器”是什么？

object dict 和其他地方的隐藏方法设置为这样的
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
Firebase Firestore：获取文档的生成 ID (Python)

我可以创建一个新文档带有自动生成的 ID 并存储对其的引用如下所示 my data key value doc ref db collection u campaigns add my data 我可以像这样访问数据本身 print d
如何将 Django 中的权限添加到模型并使用 shell 进行测试

我在模型中添加了 Meta 类并同步了数据库然后在 shell 中创建了一个对象它返回 false 所以我真的无法理解错误在哪里或者缺少什么是否在其他文件中可能存在某种配置 class Employer User Employer in
在virtualenv中下载sqlite3

我正在尝试使用命令创建应用程序python3 manage py startapp webapp但我收到一条错误消息 django core exceptions ImproperlyConfigured 加载时出错 pysqlite2 或
如何在Python脚本中从youtube-dl中提取文件大小？

我是 python 编程新手我想在下载之前提取视频音频大小任何 YouTube 视频 gt gt gt from youtube dl import YoutubeDL gt gt gt url https www youtube c

随机推荐

Spark的常用概念总结

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档文章目录前言一基本概念 1 RDD的生成 2 RDD的存储 3 Dependency 4 Transformation和Action 4 1 Transformatio
剑指Offer - 面试题25：合并俩个排序的链表

题目输入俩个递增排序的链表合并这俩个链表并使新链表中的节点仍然是递增序列例如下图链表1和链表2 合并后的升序链表为链表3 链表节点定义如下 typedef int TElemType 链表节点值的数据类型 struct ListNod
python 期货交易接口_量化交易 – 期货CTP接口与程序化（量化交易）的对接 1

很多人写CTP都是为了自动交易费好大劲对多个策略进行历史测试实盘运行能随意编写策略想改就改想加就加测试时要能随意选择合约周期时间范围参数范围能随意设置滑点量手续费盘口差保证金率还有要有组合测试我要多合约
若依框架前后端如何改端口号

前端在ruoyi ui中的vue config js中下图为前端启动端口下图为连接的后端接口原理为解决跨域问题若依使用前端的反向代理 url请求前端进行代理映射到后端此处为dev模式统一用proxy代理因此只需修改内部的
解决tqdm在jupyter中报错ImportError: IProgress not found. Please update jupyter and ipywidgets.

解决方案 gt gt gt pip3 install ipywidgets
Qt5中使用lambda表达式

Qt5中使用lambda表达式 https www cnblogs com yuankaituo p 5135750 html 利用lambda表达式实现点击按钮关闭窗口或者传输信号 QPushbutton btn new QPushbu
2020牛客多校第十场 E. Game

题解实际上从左往右先把所有能推到左边的都尽量平分到到这一部分去即前缀和 s u m sum sum平分到 l r
6.10行为型---备忘录模式

每个人都有犯错误的时候都希望有种后悔药能弥补自己的过失让自己重新开始但现实是残酷的在计算机应用中客户同样会常常犯错误能否提供后悔药给他们呢当然是可以的而且是有必要的这个功能由备忘录模式来实现其实很多应用软件都
vscode远程连接失败解决方案

vscode远程连接在更新了配置文件或者密钥信息更新后可能会出现远程连接失败过程试图写入的管道不存在该问题的主要有以下三种解决方案 1 在vscode SSH扩展设置中配置config文件的绝对位置该文件一般位于 ssh文件夹中 C
CTF.show：web10

和web9一样先查看一下源码右键查看源代码进入style css 发现有index phps 在url处输入后查看源码得到
MyBatis的增删改查操作(基于xml)

文章目录一注意事项 1 占位符 2 增删改的返回值 3 查询操作二操作 1 新增 1 单条 2 批量 2 查询 1 多条记录多字段 2 多条记录单字段 3 单条记录 4 模糊查询 5 聚合值 6 返回列中包含查询参数 3 修
SpringBoot（3）整合MyBatis 和MybatisPlus

SpringBoot 3 整合MyBatis 和MybatisPlus 1 整合MyBatis 1 1新建模块 1 2在pom xml中添加mysql驱动 1 2 1防止编译时不将静态资源编译进去在pom xml中添加 1 3 appli
【数值计算之二】数值积分之牛顿——科斯特公式：梯形、辛普森、辛普森3/8和布尔 & 高斯积分公式：勒让德、切比雪夫、拉盖尔和埃尔米特

import numpy as np from scipy integrate import quad from sympy import init printing import matplotlib pyplot as plt 数值积分
Rust全局变量

在Rust中全局变量可以分为两种编译期初始化的全局变量 const创建常量 static创建静态变量 Atomic创建原子类型运行期初始化的全局变量 lazy static用于懒初始化 Box leak利用内存泄漏将一个变量的生命周期
non-protected broadcast场景分析及解决

non protected broadcast场景分析及解决在两个app之间互相送消息使用BroadcastReceiver 有时在运行过程中在logcat工具中会发现大片的飘红消息要消除这些错误信息需要在广播的 Sender 和 R
WSL和VMware不兼容,安装了WSL之后VMware启动不起来

WSL依赖于hyper v必须开启而VMware不依赖这个必须关闭 CMD管理员模式启动输入bcdedit set hypervisorlaunchtype auto开启则可以使用WSL CMD管理员模式启动输入bcdedit s
ubuntn 下安装nginx 报错 ./configure: error: C compiler cc is not found

原因是 error C compiler cc is not found c编译器没有安装解决办法需要安装编译工具及库文件网址很多文章没有详细写nginx 安装教程跟着教程敲命令然后出错了安装nginx需要安装编译工具及库文件参考
分布式锁解决方案_Zookeeper分布式锁原理

通过召zk实现分布式锁可靠性时最高的公平锁和可重入锁的原理取水秩序 1 取水之前先取号 2 号排在前面的就可以先取水 3 先到的排在前面那些后到的一个一个挨着在井边排成一队公平锁这种排队取水模型就是一种锁的模型什么是可
docker遇到问题集合

1 docker images下删除镜像提示image is being used by stopped container 1b817324f96a 依次执行下面命令 docker ps a grep Exited awk print 1
爬虫实例十一全国城市房价排行

目标网址 https www creprice cn rank index html 这一看就是个静态页面没有用任何反爬措施所以很好爬直接发送请求解析数据就可以了完整代码 import requests from lxml impor

爬虫实例十一 全国城市房价排行

爬虫实例十一 全国城市房价排行 的相关文章

随机推荐

热门标签

爬虫实例十一全国城市房价排行

爬虫实例十一全国城市房价排行的相关文章