python抓取链家二手房数据

2023-10-30

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import json
import openpyxl
import pandas as pd
import requests
from bs4 import BeautifulSoup
from openpyxl.utils.dataframe import dataframe_to_rows

session = requests.session()

# ========================= generate urls ==========================

def generate_home_url(city):  # 生成页面url
    return 'http://' + city + '.lianjia.com/ershoufang/'

def generate_area_page_url(page_count, city, path):  # 生成页面url
    url = 'http://' + city + '.lianjia.com' + path + 'pg{}/'
    for page_index in range(1, page_count):
        yield url.format(page_index)

# ========================= ==========================

def update_session():
    # 这里模拟一下请求头，头文件是从浏览器里面抓到的，否则服务会回复403错误，（其实就是服务器做的简单防爬虫检测）
    headers = {
        'Host': 'bj.lianjia.com',
        'Connection': 'keep-alive',
        'Upgrade-Insecure-Requests': '1',
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0',
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
        'Accept-Encoding': 'gzip, deflate, sdch, br',
        'Accept-Language': 'zh-CN,zh;q=0.8',
        'Cookie': 'TY_SESSION_ID=25a21767-af26-4543-b2b4-b92f7d6028b5; TY_SESSION_ID=f5cecba1-d783-4d40-b86d-72ee2accfccf; select_city=110000; lianjia_ssid=7ea6e0a0-dd03-48c2-9031-987bda2481c2; lianjia_uuid=435b41db-4268-4e59-9852-c4cd50e86646; sajssdk_2015_cross_new_user=1; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%2216ff914d8d8522-08cf45a790e359-5e130c17-1024000-16ff914d8d9a86%22%2C%22%24device_id%22%3A%2216ff914d8d8522-08cf45a790e359-5e130c17-1024000-16ff914d8d9a86%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E7%9B%B4%E6%8E%A5%E6%B5%81%E9%87%8F%22%2C%22%24latest_referrer%22%3A%22%22%2C%22%24latest_referrer_host%22%3A%22%22%2C%22%24latest_search_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5%88%B0%E5%80%BC_%E7%9B%B4%E6%8E%A5%E6%89%93%E5%BC%80%22%7D%7D'
    }
    session.headers.clear()
    session.headers.update(headers)

def get_all_area_path(area_url):  # 分析url解析出区域的url
    update_session()
    res = session.get(area_url)

    if res.status_code == 200:
        soup = BeautifulSoup(res.text, 'lxml')

        urls = {}
        areas = soup.find_all('div', attrs={'data-role': 'ershoufang'})
        for item in areas:
            for a in item.find_all(name='a'):
                url = a.attrs['href']
                urls[a.text] = url
        # print('urls:'+str(urls))
        return urls

def get_all_page_urls(page_url):  # 分析url解析出每一页的详细url
    update_session()
    res = session.get(page_url)

    # res = requests.get(page_url, 'lxml')
    if res.status_code == 200:
        soup = BeautifulSoup(res.text, 'html.parser')

        urls = []
        infos = soup.find_all('div', attrs={'class': 'info clear'})
        for a in infos:
            url = a.a.attrs['href']
            urls.append(url)
        return urls

def get_page_by_url(page_url):  # 分析详细url获取所需信息
    print("get_page_by_url:" + page_url)
    update_session()
    try:
        res = session.get(page_url, timeout=(30, 120))

        # res = requests.get(page_url)
        if res.status_code == 200:
            info = {}
            soup = BeautifulSoup(res.text, 'lxml')
            info['标题'] = soup.select('.main')[0].text
            info['总价'] = soup.select('.total')[0].text + '万'
            info['每平方售价'] = soup.select('.unitPriceValue')[0].text
            info['参考总价'] = soup.select('.taxtext')[0].text
            info['建造时间'] = soup.select('.subInfo')[2].text
            info['小区名称'] = soup.select('.info')[0].text
            info['所在区域'] = soup.select('.info a')[0].text + ':' + soup.select('.info a')[1].text
            info['链家编号'] = str(page_url)[34:].rsplit('.html')[0]

            for ul in soup.find_all('div', attrs={'class': 'base'}):
                # print('ul:'+str(ul))
                for li in ul.find_all(name='li'):
                    # print('li:'+str(li.text))
                    span = li.find('span', attrs={'class': 'label'})
                    if '房屋户型' == span.text:
                        info['房屋户型'] = li.text.replace('房屋户型', '')
                    if '所在楼层' == span.text:
                        info['所在楼层'] = li.text.replace('所在楼层', '')
                    if '建筑面积' == span.text:
                        info['建筑面积'] = li.text.replace('建筑面积', '')
                    if '户型结构' == span.text:
                        info['户型结构'] = li.text.replace('户型结构', '')
                    if '套内面积' == span.text:
                        info['套内面积'] = li.text.replace('套内面积', '')
                    if '建筑类型' == span.text:
                        info['建筑类型'] = li.text.replace('建筑类型', '')
                    if '房屋朝向' == span.text:
                        info['房屋朝向'] = li.text.replace('房屋朝向', '')
                    if '建筑结构' == span.text:
                        info['建筑结构'] = li.text.replace('建筑结构', '')
                    if '装修情况' == span.text:
                        info['装修情况'] = li.text.replace('装修情况', '')
                    if '梯户比例' == span.text:
                        info['梯户比例'] = li.text.replace('梯户比例', '')
                    if '供暖方式' == span.text:
                        info['供暖方式'] = li.text.replace('供暖方式', '')
                    if '配备电梯' == span.text:
                        info['配备电梯'] = li.text.replace('配备电梯', '')
                    if '产权年限' == span.text:
                        info['产权年限'] = li.text.replace('产权年限', '')

            for ul in soup.find_all('div', attrs={'class': 'transaction'}):
                # print('ul:'+str(ul))
                for li in ul.find_all(name='li'):
                    # print('li:'+str(li.text))
                    span = li.find('span', attrs={'class': 'label'})
                    if '挂牌时间' == span.text:
                        info['挂牌时间'] = li.text.replace('挂牌时间', '').replace('\n', '').strip()
                    if '交易权属' == span.text:
                        info['交易权属'] = li.text.replace('交易权属', '').replace('\n', '').strip()
                    if '上次交易' == span.text:
                        info['上次交易'] = li.text.replace('上次交易', '').replace('\n', '').strip()
                    if '房屋用途' == span.text:
                        info['房屋用途'] = li.text.replace('房屋用途', '').replace('\n', '').strip()
                    if '房屋年限' == span.text:
                        info['房屋年限'] = li.text.replace('房屋年限', '').replace('\n', '').strip()
                    if ('产权所属' == span.text):
                        info['产权所属'] = li.text.replace('产权所属', '').replace('\n', '').strip()
                    if '抵押信息' == span.text:
                        info['抵押信息'] = li.text.replace('抵押信息', '').replace('\n', '').strip()
                    if '房本备件' == span.text:
                        info['房本备件'] = li.text.replace('房本备件', '').replace('\n', '').strip()
            # print("info:" + str(info))
            return info
    except Exception as e:
        print(str(e))
    return None

def do_write_workbook(ws, data):
    if data == None:
        return
    frame = pd.DataFrame(data, index=['0'])
    # print('frame:' + str(frame))
    for r in dataframe_to_rows(frame, index=False, header=True):
        if '标题' in str(r):
            continue
        #print('row:' + str(r))
        ws.append(r)

def create_sheet(workbook_file, wb, sheet_name):
    data = {'标题': '西四环，珠江峰景精装两居，正对小区花园，看房方便', '总价': '590万', '每平方售价': '57399元/平米',
            '参考总价': '首付及贷款情况请咨询经纪人', '建造时间': '2007年建/板塔结合', '小区名称': '珠江峰景',
            '所在区域': '丰台:岳各庄', '链家编号': '101106686239', '房屋户型': '房屋户型2室1厅1厨1卫',
            '所在楼层': '所在楼层高楼层 (共11层)', '建筑面积': '建筑面积102.79㎡', '户型结构': '户型结构平层',
            '套内面积': '套内面积84.24㎡', '建筑类型': '建筑类型板塔结合', '房屋朝向': '房屋朝向南',
            '建筑结构': '建筑结构钢混结构', '装修情况': '装修情况其他', '梯户比例': '梯户比例一梯四户',
            '供暖方式': '供暖方式集中供暖', '配备电梯': '配备电梯有', '产权年限': '产权年限70年',
            '挂牌时间': '2020-01-04', '交易权属': '商品房', '上次交易': '2008-07-07', '房屋用途': '普通住宅',
            '房屋年限': '满五年', '产权所属': '非共有', '抵押信息': '暂无数据', '房本备件': '已上传房本照片'}
    frame = pd.DataFrame(data, index=['0'])
    ws = wb.create_sheet(sheet_name)

    for r in dataframe_to_rows(frame, index=False, header=True):
        print('row:' + str(r))
        ws.append(r)
        # wb.save(workbook_file)
        break
    return ws

def has_sheet(wb, key):
    sheet_names = wb.get_sheet_names()
    for sheet_name in sheet_names:
        if key == sheet_name:
            return True
    return False

def fetch_all_area():
    city = 'bj'
    page_count = 15
    workbook_file = '链家二手房.xlsx'
    area_path_map = get_all_area_path(generate_home_url(city))
#这里要注意下,如果没有文件会失败,我没有新建操作.你可以建一个xlsx文件就行.
    wb = openpyxl.load_workbook(workbook_file)

    for key, val in area_path_map.items():
        print('key:' + str(key) + ' val:' + str(val))
        if has_sheet(wb, key): #由于抓取数据过程会失败,重新运行,所以有判断是否已经存在sheet.
            continue
        ws = create_sheet(workbook_file, wb, key)
        for area_url in generate_area_page_url(page_count, city, val):
            for page_url in get_all_page_urls(area_url):
                do_write_workbook(ws, get_page_by_url(page_url))
        wb.save(workbook_file)
        wb = openpyxl.load_workbook(workbook_file)

if __name__ == '__main__':
    fetch_all_area()

保存失败,不想再写了.直接上代码吧.

参考了 :https://blog.csdn.net/liujiayu2/article/details/86007384 的代码.

抓取的数据不太一样,是按区域存储sheet的,原文是直接分页抓取.打开链家二手房页面,会看到下面有小区/地铁,从这里的小区得到每一个小区的path,然后拼成url,再分页抓取数据.详情页的数据也把很多信息抓取了.像取暖,挂牌时间等.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

二手房

链家

python抓取链家二手房数据的相关文章

如何恢复tensorflow inceptions检查点文件（ckpt）？

I have inception resnet v2 2016 08 30 ckpt文件是预先训练的初始模型我想使用恢复这个模型 saver restore sess ckpt filename 但为此我将需要编写训练该模型时使用的变量
Gunicorn 工作人员无论如何都会超时

我正在尝试通过gunicorn运行一个简单的烧瓶应用程序但是无论我做什么我的工作人员都会超时无论是否有针对应用程序的活动工作人员在我设置任何内容后总是会超时timeout值到是什么导致它们超时当我发出请求时请求成功通过但工作
pandas DataFrame.join 的运行时间是多少（大“O”顺序）？

这个问题更具概念性理论性与非常大的数据集的运行时间有关所以我很抱歉没有一个最小的例子来展示我有一堆来自两个不同传感器的数据帧我需要最终将它们连接成两个very来自两个不同传感器的大数据帧 df snsr1 and df snsr2
使用主题交换运行多个 Celery 任务

我正在用 Celery 替换一些自制代码但很难复制当前的行为我期望的行为如下创建新用户时应向tasks与交换user created路由键该消息应该触发两个 Celery 任务即send user activate email
在 Django Admin 中调整字段大小

在管理上添加或编辑条目时 Django 倾向于填充水平空间但在某些情况下当编辑 8 个字符宽的日期字段或 6 或 8 个字符的 CharField 时这确实是一种空间浪费字符宽然后编辑框最多可容纳 15 或 20 个字符我如何告
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
如何使用 Selenium 和 ChromeDriver 解决 TypeError: 'module' object is not callable 错误 [重复]

这个问题在这里已经有答案了代码试验 from selenium import webdriver from selenium webdriver chrome options import Options as Chromeoptions
Java 和 Python 可以在同一个应用程序中共存吗？

我需要一个 Java 实例直接从 Python 实例数据存储中获取数据我不知道这是否可能数据存储是否透明唯一或者每个实例如果它们确实可以共存都有其单独的数据存储总结一下 Java 应用程序如何从 Python 应用程序的数据存
导入错误：没有名为flask.ext.login的模块

我的flask login 模块有问题我已经成功安装了flask login模块另外从命令提示符我可以轻松运行此脚本不会出现错误 Python 2 7 r27 82525 Jul 4 2010 07 43 08 MSC v 1500
尽管我已在 python ctypes 中设置了信号处理程序，但并未调用它

我尝试过使用 sigaction 和 ctypes 设置信号处理程序我知道它可以与python中的信号模块一起使用但我想尝试学习当我向该进程发送 SIGTERM 时但它没有调用我设置的处理程序只打印终止为什么它不调用处理程序
Protobuf 如何编码 oneof 消息结构

对于这个 python 程序在编码时运行 protobuf 编码会给出以下输出 0a 10 08 7f8a 0104 08 02 10 0392 0104 08 02 10 03 18 01 我不明白的是为什么8a后面有一个01 为什么9
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
python 中的“槽包装器”是什么？

object dict 和其他地方的隐藏方法设置为这样的
每当使用 import cv2 时 OpenCV 都会出错

我在终端上使用 pip3 install opencv contrib python 安装了 cv2 并且它工作了但是每当我尝试导入 cv2 或运行导入了 cv2 的 vscode 文件时在 python IDLE 上它都会说 Trac
Firebase Firestore：获取文档的生成 ID (Python)

我可以创建一个新文档带有自动生成的 ID 并存储对其的引用如下所示 my data key value doc ref db collection u campaigns add my data 我可以像这样访问数据本身 print d
如何将 Django 中的权限添加到模型并使用 shell 进行测试

我在模型中添加了 Meta 类并同步了数据库然后在 shell 中创建了一个对象它返回 false 所以我真的无法理解错误在哪里或者缺少什么是否在其他文件中可能存在某种配置 class Employer User Employer in
pandas.read_csv 将列名移动一倍

我正在使用位于的 ALL zip 文件here http www fec gov disclosurep PDownload do 我的目标是用它创建一个 pandas DataFrame 但是如果我跑 data pd read csv
如何在 Flask 中的视图函数/会话之间传递复杂对象

我正在编写一个 Web 应用程序当且仅当用户登录时该应用程序从第三方服务器接收大量数据这些数据被解析为自定义对象并存储在list 现在用户在应用程序中使用这些数据调用不同的视图例如发送不同的请求我不确定什么是最好的模式在视
如何将Python3设置为Mac上的默认Python版本？

有没有办法将 Python 3 8 3 设置为 macOS Catalina 版本 10 15 2 上的默认 Python 版本我已经完成的步骤看看它安装在哪里 ls l usr local bin python 我得到的输出是这样的
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS

随机推荐

java:错误: 非法的表达式开始

我写了这样一个代码 class Person private String name private int age Person System out println C name name age age Person String n
记一道字节跳动的算法面试题

来源公众号苦逼的码农作者帅地前几天有个朋友去面试字节跳动面试官问了他一道链表相关的算法题不过他一时之间没做出来就来问了我一下感觉这道题还不错拿来讲一讲题目这其实是一道变形的链表反转题大致描述如下给定一个单链表的头节
CSAPP实验

实验目的 1更好地熟悉和掌握计算机中整数和浮点数的二进制编码表示 2 实验中使用有限类型和数量的运算操作实现一组给定功能的函数在此过程中加深对数据二进制编码表示的了解 3 熟悉linux基本操作命令其中常用工具和程序开发环境 4 完善b
K8S安装部署的详细步骤与注意事项！

目录一准备工作 1 关闭delinux和防火墙 2 配置 etc hosts文件 3 配置主机间的免密通道 4 关闭交换分区提升性能 5 修改机器内核参数 6 配置阿里云repo源 7 配置时间同步二安装docker服务 1 安装
百度网盘的最新插件（懂得都懂）

下面先给大家介绍一下油猴插件这个插件为什么叫油猴现在我们经常提到的油猴插件常指Tampermonkey 但Tampermonkey翻译过来是叫篡改猴为什么会叫油猴呢原因是因为另一个插件Greasemonkey 它翻译过来叫油猴而
010 Editor：二进制文件编辑利器

使用010 Editor编辑二进制文件非常简单只需打开目标文件即可你可以使用导航面板轻松浏览文件内容并直接在十六进制编辑器中进行编辑 010 Editor还提供了强大的模板功能通过自定义模板可以轻松解析二进制文件中的各种数据结构
线程池任务队列和拒绝策略

1 任务队列 BlockingQueue
SRTM1 V3.0数据批量下载

USGS官网 EarthExplorer usgs gov 一选取下载区域可通过加载自己已有的shp文件选取 shp折点数属不能超过500 二选取数据集三添加到Bulk Download 这里可选多页然后点击 View Item
按键点亮led灯

原理图 K0这个按键按下时开发板D1这个灯亮松开灯灭代码如下 include stm32f4xx h void LED Init void 1 定义一个GPIO外设的结构体变量 GPIO InitTypeDef GPIO InitS
AHUT周赛2

1 A Mahmoud and Ehab and the MEX Problem A Codeforces 核心在于x之前的数肯定是有的 x是没有的所以从0开始一直到x 如果哪个数没有就加上哪个数操作数 1 如果有x就删去x 操作数 1
使用git将已有工程上传/push至Github完整初级过程

相关链接 Github配置SSH基于Git Bash 设置Git的Username和Email 处理Key is invalid问题如何在Eclipse平台使用git从GitHub上下载文件至本地及管理本地git项目安装git Git下
Pandas库入门仅需10分钟

数据处理的时候经常性需要整理出表格在这里介绍pandas常见使用目录如下数据结构导入导出文件对数据进行操作增加数据创建数据删除数据改动数据查找数据常用操作转置常用统计值参考链接 10 minutes to pan
虚拟机存储IO的那点事

随机IO vs 顺序IO 一般90 以上的虚拟机都是随机IO模型用户交互类应用如桌面 Web 它们的存储IO在Hypervisor看来都是随机的这主要是因为我们常见的文件格式如jpg png exe elf一般都采用了元数据数据的模
乐高ev3python教程_入门篇丨使用EV3机器人，趣味学习Python编程语言~

如批判性思维沟通和协作能力使用EV3机器人趣味学习Python编程语言让孩子们掌握计算思维或许是一个不错的选择什么是计算思维计算思维这一概念最先由Seymour Papert提出后由周以真教授 Jeannette Wing
Microsoft Visual C++ 14.0 is required 的解决方案

Pytho安装module时可能会出现 error Microsoft Visual C 14 0 is required Get it with Microsoft Visual C Build Tools 这样的错误对于此类问题提
Spring学习（1）之IoC和Di

文章目录 1 Spring 1 1简介 1 2优点与缺点 1 3组成 1 4提前知识 2 IoC的本质 2 1IoC创建对象的方式 3 Spring中xml文件中的属性的配置 3 1别名 3 2Bean的配置 3 3import 3 4be
Sequelizejs框架学习（待更新）

model 如果你不想使用sql语句那么你需要建立模型 model可以方便数据校验数据关联等可以用一下快捷命令创建model sequelize auto h ip d 库名 u 用户名 x 密码 p 端口号 o 生成模型的路径 t
硬件虚拟化技术浅析

目录 1 硬件虚拟化技术背景 2 KVM的内部实现概述 2 1 KVM的抽象对象 2 2 KVM的vcpu 2 3 KVM的IO虚拟化 2 3 1 IO的虚拟化 2 3 2 VirtIO 3 KVM IO可能优化地方 3 1 Virt IO
Google推荐的图片加载库Glide介绍

英文原文 Introduction to Glide Image Loader Library for Android recommended by Google 首发地址 http jcodecraeer com a anzhuokaif
python抓取链家二手房数据

usr bin env python3 coding utf 8 import json import openpyxl import pandas as pd import requests from bs4 import Beautif

python抓取链家二手房数据

python抓取链家二手房数据 的相关文章

随机推荐

热门标签

python抓取链家二手房数据的相关文章