Python爬虫入门——梦开始的地方

import requests
from lxml import etree

url = '...'
headers = {}
resp = requests.get(url, headers=headers)
# print(resp)
response = resp.text
# print(response)
html = etree.HTML(response)

data_list = html.xpath('//ul[@class="sellListContent"]//li')
# print(data_list)
idx=1
for li in data_list:
    try:

        name = li.xpath('./div[1]/div[1]/a/text()')[0]
        address1 = li.xpath('./div[1]/div[2]/div/a[1]/text()')[0]
        address2 = li.xpath('./div[1]/div[2]/div/a[2]/text()')[0]
        size = li.xpath('./div[1]/div[3]/div/text()')[0]
        total_money = li.xpath('./div[1]/div[6]/div[1]/span/text()')[0]
        price = li.xpath('./div[1]/div[6]/div[2]/span/text()')[0]
        info = "房名: " + name + "\n地址: " + address1 + "-" + address2 + "\n面积: " + size + "\n总价: " + total_money + "万" + "\n单价: " + price+"\n\n"

        with open('...txt','a',encoding='utf-8') as file:
            file.write(info)
            print(f"{idx}保存成功")
            idx+=1
        # print(name,address1,address2,size)
    except Exception as e:
        pass

5.代码详解

requests——发起请求
etree——数据解析工具
url——目标网址
headers——爬虫伪装
.text——获得网页代码
HTML()——解析网页
xpath()——路径取值
try...except..——异常处理
- 为什么会有异常？在网页中存在广告
with .. open..——上下文管理器

6.代码封装

import requests
from lxml import etree


class LiJia(object):
    def __init__(self):
        self.url = '...'
        self.headers = {}
        self.idx = 1

    def send_requests(self):
        resp = requests.get(self.url, heapq=self.headers)
        response = resp.text
        self.parse_data(response)

    def parse_data(self, response):
        html = etree.HTML(response)
        data_list = html.xpath('//ul[@class="sellListContent"]//li')
        for li in data_list:
            try:
                name = li.xpath('./div[1]/div[1]/a/text()')[0]
                address1 = li.xpath('./div[1]/div[2]/div/a[1]/text()')[0]
                address2 = li.xpath('./div[1]/div[2]/div/a[2]/text()')[0]
                size = li.xpath('./div[1]/div[3]/div/text()')[0]
                total_money = li.xpath('./div[1]/div[6]/div[1]/span/text()')[0]
                price = li.xpath('./div[1]/div[6]/div[2]/span/text()')[0]
                info = "房名: " + name + "\n地址: " + address1 + "-" + address2 + "\n面积: " + size + "\n总价: " + total_money + "万" + "\n单价: " + price + "\n\n"
                self.save_data(info)
            except IndexError:
                pass

    def save_data(self, content):
        with open('....', 'a', encoding='utf-8') as file:
            file.write(content)
            print(self.idx, "保存成功")
            self.idx += 1

    def run(self):
        self.send_requests()


if __name__ == '__main__':
    spider = LiJia()
    spider.run()

总结

以上便是我走进爬虫的第一个案例

需要完成本案例我们要掌握Python基本语法和xpath的基本语法使用

感谢大家支持。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

爬虫

开发语言

Python爬虫入门——梦开始的地方的相关文章

Scrapy 在抓取一长串 url 时陷入困境

我正在抓取一个大的 url 列表 1000 左右并且在设定的时间后爬虫程序会以 0 页分钟的速度爬行爬行时问题总是出现在同一个位置 url 列表是从 MySQL 数据库检索的我对 python 和 scrapy 相当陌生所以我不
Tastypie 与 application/x-www-form-urlencoded

我有点难以弄清楚下一步应该做什么我正在使用 tastypie 为我的 Web 应用程序创建 API 从另一个应用程序特别是 ifbyphone com 我收到一个没有标题的 POST 如下所示 post data http myapp
如何关闭python服务器

使用此代码来运行 python 服务器 import os from http server import SimpleHTTPRequestHandler HTTPServer os chdir c users owner desktop
Python - 定义常量列表或字典的最佳/最简洁的方法

第一次使用堆栈溢出我很高兴来到这里简介我最近开始了 Python 编程世界的神奇冒险我喜欢它现在在我从 C 语言的尴尬过渡中一切都进展顺利但我在创建与标头文件 h 同义的内容时遇到了麻烦问题我有中等大小的字典和列表大约
pandas python 根据一个或多个其他列的子集更新 A 列的子集

Edit我修改了下面的部分描述以澄清功能和组的含义修复拼写错误并包含我尝试过的其他代码我的熊猫df有 450 万行和 23 列下表显示了几行df2这是从生成的df 它显示了两组 eeskin and hduquant 和三
尽管 ioff() 和 matplotlib.use('Agg')，Pyplot“无法连接到 X 服务器 localhost:10.0”

我有一段代码它被不同的函数调用为我执行一些计算然后将输出绘制到文件中鉴于整个脚本可能需要一段时间才能运行更大的数据集并且由于我可能想在给定时间分析多个数据集所以我开始它screen然后断开连接并关闭我的腻子会话并在第二天再检查
使用 pygtk3 将 GUI 窗口添加到 python opencv2 程序

我已经使用Python和Opencv2完成了一个程序现在我想向我的程序添加一个 GUI 窗口我对 PyGtk3 有一些经验因此我修改了代码以采用 PyGtk3 但是我遇到了错误因此我尝试了一个简单的程序来找出实际的错误我的
Django REST Framework：无法使用视图名称解析超链接关系的 URL

我已经广泛研究了这个相当常见的问题但没有一个修复对我有用我正在 REST 框架中构建 Django 项目并希望使用超链接关系用户可以拥有许多独立的汽车和路线路线是位置的集合这些是我的序列化器 class CarSerialize
类型错误：只有长度为 1 的数组可以转换为 Python 标量

我是 openCV 的初学者正在尝试分析数独求解器的现有代码有这一段代码会引发错误 samples np float32 np loadtxt feature vector pixels data responses np float3
熊猫 style.background_gradient 忽略 NaN

我有以下代码来转储数据帧results到 HTML 表格中这样的列TIME FRAMES根据seaborn 的颜色图进行着色 import seaborn as sns TIME FRAMES 24h 7d 30d 1y Set CSS
SQLAlchemy 默认日期时间

这是我的声明模型 import datetime from sqlalchemy import Column Integer DateTime from sqlalchemy ext declarative import declarati
如何在 sqlalchemy 中创建基于文字的查询？

我创建了一个函数来创建表达式 def test operator1 operation operator2 return literal column operator1 op operation operator2 现在当我用 test
使用 Twisted Python 的 UDP 客户端和服务器

我想创建一个服务器和客户端使用 Twisted 从网络发送和接收 UDP 数据包我已经用 Python 中的套接字编写了此代码但想利用 Twisted 的回调和线程功能然而我需要 Twisted 设计方面的帮助我想接收多种类型的
如何使用子进程打开新的浏览器选项卡？

我正在打开一个新的 IE 窗口 subprocess Popen r os environ PROGRAMFILES Internet Explorer IEXPLORE EXE Call URL 当 IE 关闭时这很好但即使打开它也会生
替换 pandas 数据框中的点

我有一个如图所示的数据框数字实际上是对象正在做df treasury rate pd to numeric df treasury rate 可预见的炸弹然而做df replace np nan 似乎没有摆脱这个点所以我很困惑有
将多个 isinstance 检查转换为结构模式匹配

我想转换此现有代码以使用模式匹配 if isinstance x int pass elif isinstance x str x int x elif isinstance x float Decimal x round x else r
如何在 scikit-learn 的 SVM 中使用非整数字符串标签？ Python

Scikit learn 具有相当用户友好的用于机器学习的 python 模块我正在尝试训练用于自然语言处理 NLP 的 SVM 标记器其中我的标签和输入数据是单词和注释例如词性标记而不是使用双精度整数数据作为输入元组 1 2
使用多行选项和编码选项读取 CSV

在 azure Databricks 中当我使用以下命令读取 CSV 文件时multiline true and encoding SJIS 似乎编码选项被忽略了如果我使用multiline选项 Spark 使用默认值encoding那
检测计算机何时解锁 Windows

我用过这个优秀的方法 https stackoverflow com questions 20733441 lock windows workstation using python 20733443锁定 Windows 计算机那部分工作
Scrapy - 持续从数据库中获取要爬取的url

我想不断地从数据库中获取要爬行的网址到目前为止我成功地从基地获取了 url 但我希望我的蜘蛛继续从该基地读取因为该表将由另一个线程填充我有一个管道一旦爬行工作就会从表中删除 url 换句话说我想使用我的数据库作为队列我尝试

随机推荐

SQL求解用户连续登录天数

数据分析面试过程中一般都逃不掉对SQL的考察可能是笔试的形式也可能是面试过程中面试官当场提问当场在纸上写出或者简单说一下逻辑今天就来分享一道面试中常常被问到的一类SQL问题连续问题无论是什么样的场景只要是连续问题那
TCP/IP协议之服务器端——华清远见

咳咳咳今天也是认真学习的一天一 TCP IP协议是什么 TCP协议是一种以固连线为基础的协议它提供两台计算机之间可靠的数据传送 TCP可以保证从一端数据传至连接的另一端时数据能够确实送达 TCP协议适合可靠性比较高的场合就像拨打电
队列的几种实现方式

队列简介队列是一种特殊的线性表特殊之处在于它只允许在表的前端 front 进行删除操作而在表的后端 rear 进行插入操作和栈一样队列是一种操作受限制的线性表进行插入操作的端称为队尾进行删除操作的端称为队头队列是一种最常用的
Android10(Q)系统源码编译

Android10系统编译一硬件环境二软件环境三开始编译四遇到问题一硬件环境在ubuntu18 04系统中下载编译android10 Q 源码需要如下条件 1 至少4G内存小于4G内存编译源码期间的等待将会是很痛苦的
【数学建模】数据处理问题

一插值与拟合常用于数据的补全以及趋势分析 1 插值总的思想就是利用函数f x 若干已知点的函数值求出适当的特定函数g x 这样f x 其他未知点上的值就可以用g x 在这一点的值来近似这种通过已知求未知的方法称为插值插值方
mysql知识系列：查看用户密码、修改用户密码，对网上“update user set authentication_string=‘123456’ where user=‘root’；”纠错

说明博主用的是mysql8 0 18 网上在找回mysql密码清一色的教程都是修改root用户的密码并且使用 update user set authentication string 123456 where user root 博
Keycloak概述

这里写自定义目录标题 Keycloak概述 Single Sign On Kerberos 社交登录用户合并客户端适配管理控制台用户管理控制台标准协议授权服务 Getting Started Keycloak概述 keycloa
FPN网络详解

1 特征金字塔特征金字塔 Feature Pyramid Networks FPN 的基本思想是通过构造一系列不同尺度的图像或特征图进行模型训练和测试目的是提升检测算法对于不同尺寸检测目标的鲁棒性但如果直接根据原始的定义进行FPN计算
mysql报错ERROR 1356 (HY000): View ‘mysql.user‘ references invalid table(s) or column(s) or function(s)

当您在使用 UPDATE user SET password PASSWORD newpassword WHERE User root 命令时提示 ERROR 1356 HY000 View mysql user references in
c语言数组下标和指针,C语言数组下标与指针效率解析

以字符串拷贝函数为例解析数组中下标与指针的效率情况指针的效率至少和下标相同原因参考C下标的实现原理注意编译器差异因为部分编译器针对下标设置了特殊汇编指令不做考虑 define SIZE 50 int x SIZE int y S
SQL中join group by having max() 时转Linq

本来开发时有一个分组聚合的脚本比较复杂为了笔记效果所以将脚本做一个简化本来库里有两个表TableA和TableB 两个表的主键做如下关联 TableA的主键ID为TableB的外键Aid SELECT a Id a Name b I
【Android11系统开发】上层app通过AIDL监听framework数据

一适用场景在Android系统开发中需要监听按键触摸或者可见窗口大小变化等需求时你会考虑什么方法来实现呢通过广播的方式可以实现但是效果可能并不好 AIDL可以实现跨进程通讯可以解决以上需求下面重点分析下如何具体实现以实
Node.js事件循环

在 Node js 中事件循环是用来处理非阻塞 I O 的基础这意味着在 Node js 中用户代码不会因为等待 I O 操作而停止执行而是在 I O 操作完成后被通知 Node js 中的事件循环的工作方式有以下几种首先 Nod
【elementplus】body设置zoom后，el-table开启show-overflow-tooltip后，表格的tooltip显示会错位的解决方案

由于我的项目是无法避免使用zoom 所以只记录zoom后的解决方案示例明明划过的是第一行 tooltip却显示到了第四行的位置正确显示划过第一行 tooltip显示在第一行的位置代码使用transform属性来修复el tabl
JavaScript 实现html导出为PDF文件

相信各位前端工程狮们在一些报表项目管理系统项目中都会遇到在这样的需求申请报表格简历等等图文信息有导出为PDF文件下面是记录我在项目中完成该需求的代码dome 发布出来也是希望对大家有些帮助 1 整体思路将HTML元素打印或导出为
【满分】【华为OD机试真题2023 JS】统计匹配的二元组个数

华为OD机试真题 2023年度机试题库全覆盖刷题指南点这里统计匹配的二元组个数知识点数组时间限制 1s 空间限制 32MB 限定语言不限题目描述给定两个数组A和B 若数组A的某个元素A i 与数组B中的某个元素B j 满足 A
函数getopt()，及其参数optind

getopt被用来解析命令行选项参数转载地址 http hi baidu com xlt1888 blog item 703148383008492670cf6c2d html include
java属于什么语言_java是什么语言？是什么系统？

一开始了解计算机这个专业大家都会经常性听到Java这一词语那么大家有真正的了解什么是Java吗 Java是属于什么语言呢 JAVA语言其实是混合型的一种语言 Java语言是一个支持网络计算的面向对象程序设计语言 Java语言吸收了Sm
MinIO学习文档（Java版）

目录一安装 1 在k8s中安装minio单机版 1 创建minio名称空间 2 minio单机版安装yaml 二代码 1 pom xml 说明 minio所用依赖 2 application yml 说明放置minio连接信息 mi
Python爬虫入门——梦开始的地方

目录文章目录前言一前置知识二实现步骤 1 分析网站 2 制定爬取方案 3 实现方案 4 基础代码展示 5 代码详解 6 代码封装总结前言爬虫应严格遵守国家法律规定时隔数月进入暑假回忆这数月的学习内容不禁感慨计算机的

Python爬虫入门——梦开始的地方

前言

一、前置知识

二、实现步骤

1.分析网站

2.制定爬取方案

3.实现方案

4.基础代码展示

5.代码详解

6.代码封装

总结

Python爬虫入门——梦开始的地方 的相关文章

随机推荐

热门标签

Python爬虫入门——梦开始的地方的相关文章