python爬取网页的方法总结,python3.9爬取网页教程

2023-11-11

大家好，小编为大家解答python 爬取网页内容并保存到数据库的问题。很多人还不知道利用python爬取简单网页数据步骤，现在让我们一起来看看吧！

需求分析

今天遇到一个简单的需求，需要下载澳大利亚电力市场NEM日前市场的发电商报价数据（nemweb.com.au - /Reports/Current/Next_Day_Offer_Energy/），页面观感是这样的：

Ctrl + F 一下，看到一共有395个zip链接。于是就想着用python爬虫自动下载火车头采集器伪原创。这个网页很简单，没有验证码，甚至不需要登录，因此自动下载的python代码也很简单。

步骤

爬取链接主要是如下3步：

1. 第一步是爬取网页内容，保存在一个字符串content中

content的观感是这样的

从中可以看到链接是以'PUBLIC_NEXT_DAY_OFFER_ENERGY_(\d*)_(\d*).zip'的形式出现的，而且出现了两遍。

2. 第二步是构造正则表达式，从content中匹配下载链接

正则表达式构造为'(PUBLIC_NEXT_DAY_OFFER_ENERGY_(\d*)_(\d*).zip)'，re.findall会返回一个三元tuple，分别是 (整个匹配到的字符串，第一个(\d*)，第二个(\d*)). 由于上面提到了链接出现了两遍，所以可以用list转set来去重。

3. 第三步是遍历链接的set，下载链接

这一步就很trivial了，唯一要注意的是如果下载下来的文件所在的目录不存在，要提前作判断，建新目录。

结果

Done!

源代码

"""
Created on Tue Nov 20 09:50:26 2018

@author: weiyx15

Automated downloading all data links from 
http://nemweb.com.au/Reports/Current/Next_Day_Offer_Energy/

"""
import urllib.request# url request
import re            # regular expression
import os            # dirs

# parent url
url = 'http://nemweb.com.au/Reports/Current/Next_Day_Offer_Energy/'

# regular expression
pattern = '(PUBLIC_NEXT_DAY_OFFER_ENERGY_(\d*)_(\d*).zip)'

# pull request
headers = {'User-Agent', 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36'}
opener = urllib.request.build_opener()
opener.addheaders = [headers]
content = opener.open(url).read().decode('utf8')

# match regex and drop repetition
raw_hrefs = re.findall(pattern, content, 0)
hset = set(raw_hrefs)

# make directory
if not os.path.exists('./auto_download'):
    os.makedirs('auto_download')

# download links
for href in hset:
    link = url + href[0]
    print(link)
    urllib.request.urlretrieve(link, os.path.join('./auto_download', href[0]))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python爬取网页的方法总结,python3.9爬取网页教程的相关文章

类的 IPython 表示

我正在使用我创建的模块尝试 IPython 但它没有显示类对象的实际表示相反它显示类似的内容 TheClass module TheClass name I heavily在这个模块中使用元类我有真正有意义的类表示应该向用户显示是
Pandas set_levels，如何避免标签排序？

我使用时遇到问题set levels多索引 from io import StringIO txt Name Height Age Metres A 1 25 B 95 1 df pd read csv StringIO txt heade
让 VoiceChannel.members 和 Guild.members 返回完整列表的问题

每当我尝试使用 VoiceChannel members 或 Guild members 时它都不会提供适用成员的完整列表我从文本命令的上下文中获取 VoiceChannel 和 Guild 如下所示 bot command name
VSCode Settings.json 丢失

我正在遵循教程并尝试将 vscode 指向我为 Scrapy 设置的虚拟工作区但是当我在 VSCode 中打开设置时工作区设置选项卡不在用户设置选项卡旁边我还尝试通过以下方式手动转到文件 APPDATA Code User s
我应该使用 Python 双端队列还是列表作为堆栈？ [复制]

这个问题在这里已经有答案了我想要一个可以用作堆栈的 Python 对象使用双端队列还是列表更好元素数量较少还是数量较多有什么区别您的情况可能会根据您的应用程序和具体用例而有所不同但在一般情况下列表非常适合堆栈 append is
使用主题交换运行多个 Celery 任务

我正在用 Celery 替换一些自制代码但很难复制当前的行为我期望的行为如下创建新用户时应向tasks与交换user created路由键该消息应该触发两个 Celery 任务即send user activate email
Pycharm 在 os.path 连接上出现“未解析的引用”

将pycharm升级到2018 1 并将python升级到3 6 5后 pycharm报告未解析的引用 join 最新版本的 pycharm 不会显示以下行的任何警告 from os path import join expanduser
Python 内置的 super() 是否违反了 DRY？

显然这是有原因的但我没有足够的经验来认识到这一点这是Python中给出的例子docs http docs python org 2 library functions html super class C B def method se
从 Powershell 脚本安装 Python

当以管理员身份从 PowerShell 命令行运行以下命令时可以在 Windows 11 上成功安装 Python c temp python 3 11 4 amd64 exe quiet InstallAllUsers 0 Instal
使用 python/numpy 重塑数组

我想重塑以下数组 gt gt gt test array 11 12 13 14 21 22 23 24 31 32 33 34 41 42 43 44 为了得到 gt gt gt test2 array 11 12 21 22 13 14
python的shutil.move()在linux上是原子的吗？

我想知道python的shutil move在linux上是否是原子的如果源文件和目标文件位于两个不同的分区上行为是否不同或者与它们存在于同一分区上时的行为相同吗我更关心的是如果源文件和目标文件位于同一分区上 shutil move
尽管我已在 python ctypes 中设置了信号处理程序，但并未调用它

我尝试过使用 sigaction 和 ctypes 设置信号处理程序我知道它可以与python中的信号模块一起使用但我想尝试学习当我向该进程发送 SIGTERM 时但它没有调用我设置的处理程序只打印终止为什么它不调用处理程序
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
如何使用 Python 3 检查目录是否包含文件

我到处寻找这个答案但找不到我正在尝试编写一个脚本来搜索特定的子文件夹然后检查它是否包含任何文件如果包含则写出该文件夹的路径我已经弄清楚了子文件夹搜索部分但检查文件却难倒了我我发现了有关如何检查文件夹是否为空的多个建议并且我尝
Protobuf 如何编码 oneof 消息结构

对于这个 python 程序在编码时运行 protobuf 编码会给出以下输出 0a 10 08 7f8a 0104 08 02 10 0392 0104 08 02 10 03 18 01 我不明白的是为什么8a后面有一个01 为什么9
python 中的“槽包装器”是什么？

object dict 和其他地方的隐藏方法设置为这样的
如何以正确的方式为独立的Python应用程序制作setup.py？

我读过几个类似的主题但还没有成功我觉得我错过或误解了一些基本的事情这就是我失败的原因我有一个用 python 编写的应用程序我想在标准 setup py 的帮助下进行部署由于功能复杂它由不同的 python 模块组成但单独
在virtualenv中下载sqlite3

我正在尝试使用命令创建应用程序python3 manage py startapp webapp但我收到一条错误消息 django core exceptions ImproperlyConfigured 加载时出错 pysqlite2 或
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS
如何在Python脚本中从youtube-dl中提取文件大小？

我是 python 编程新手我想在下载之前提取视频音频大小任何 YouTube 视频 gt gt gt from youtube dl import YoutubeDL gt gt gt url https www youtube c

随机推荐

使用Vagrant创建和管理本地Kubernetes（K8s）集群的步骤是什么

文章目录步骤1 准备环境步骤2 创建Vagrantfile 步骤3 启动虚拟机步骤4 安装Kubernetes 步骤5 配置Kubernetes网络插件步骤6 将Worker节点加入集群步骤7 验证集群步骤8 部署应用步骤9
数据访问:MyBatis-Plus&Druid数据源

数据访问 MyBatis Plus Druid数据源 SpringBoot集成MyBatis Plus MyBatis Plus简介 Lombok简介和安装添加CRUD接口分页插件代码生成器 SpringBoot集成Druid数据源
Servlet的两个Map

Servlet中第一个请求到达tomcat容器时容器会对请求进行解析去除 ip port context path 得到 uri web应用在启动时会创建这两个map 第一个map的value在初始时值都为空第二个map在初始时值为s
《概率论与数理统计》——概率公式

1 逆事件公式 2 加法公式 3 减法公式 4 条件概率设 A B 为任意事件若 P A gt 0 我们称在已知事件 A 发生的条件下事件 B 发生的概率为条件概率记作 P B A 5 乘法公式 6 全概率公式 7 贝叶斯公式
【代码随想录-刷题学习JavaScript】day4-字符串

一 344 反转字符串二 541 反转字符串II 三剑指Offer 05 替换空格四 151 翻转字符串里的单词五剑指Offer58 II 左旋转字符串六 28 实现 strStr 七 459 重复的子字符串八字符串总结九
Python安装数据库SqlServer\MySql访问组件

首先要说明是基于Python3 6 3的安装方法有所不同以前网上说的一些方法试了基本没用踩过了坑现在列一下我的成功安装方法给坑友们系统环境 win10企业版64位开发环境 vs2015 Python版本 3 6 3 64位一
redis执行日志_Redis之坑：Redis与MySQL中事务的区别

MySQL BEGIN 显式地开启一个事务 COMMIT 提交事务将对数据库进行的所有修改变成为永久性的 ROLLBACK 结束用户的事务并撤销正在进行的所有未提交的修改 Redis MULTI 标记事务的开始 EXEC 执行事务的co
单词统计（C语言）

简述输入一串英文字符串统计出现的单词数目流程图原理简述定义一个字符串数组char a 100 用于接收输入的字符串输入字符串本处运用的gets 函数作用是从终端输入一串字符到定义的字符数组中函数返回值是数组地址为方便表示
QT QTreeWidget 控件学习笔记

首先我们了解一下 QTreeWidget的属性 1 QTreeWidget 控件的创建 QTreeWidget tw 单独的树 QTreeWidget tw w 在w界面里的树 2 往tw中添加子节点创建一个新结点设置结点中包含的数据
Ubuntu：安装deb文件包

sudo dpkg i deb 如果报依赖错误执行下面语句再试 sudo apt get f fix missing install
query和params传参的区别

一 query和params传参的区别 1 query传递显示参数 params传递不显示参数 params相对于query来说较安全一点取值方法也有不同 1 query取值 this r o u t e
ubuntu启动时黑屏，无法进入登录界面

方式1 1 重新启动客户机 2 点击屏幕立即长按左shift键或ESC 3 出现grub菜单后选择第二个 4 又出现一个列表继续选择第二个 5 下一个页面选择第一个 6 下一个界面点击OK就可以了但不能保证下次开机时能不能进入方式2 在
django梳理

概述 1 框架推导流程 web框架 Yietong309的博客 CSDN博客前期准备知识 2 django请求生命周期流程图客户端发送HTTP发送request请求经过网关发送到中间件在经过路由层视图层模型层模板层这两个都与
鸿蒙-实践课程一 android、ios、HarmonyOS

目前ide对于js调试还是如其它android ios一样存在较多缺陷 config json配置导致中间调试的断层建议初学者如果是java或者语言类转入可以先用java语言进行学习首先你需要理清楚 Ability AceAbil
pygraphviz安装教程

0x01 背景最近在做casual inference 做实验时候想因果图可视化遂需要安装pygraphviz 整了一下午终于捣鼓好了真头大环境 win10操作系统 python3 9环境在这里如果有conda环境直接可以使
代码级测试

代码级测试的测试方法一定是一套测试方法的集合而不是一个测试方法因为单靠一种测试方法不可能发现所有潜在的错误一定是一种方法解决一部分或者一类问题然后综合运用多种方法解决全部问题常见代码错误类型第一语法特征错误语法特征错误是指
编写高质量代码:改善Java程序的151个建议(第8章:异常___建议110~117)

不管人类的思维有多么缜密也存在智者千虑必有一失的缺憾无论计算机技术怎么发展也不可能穷尽所有的场景这个世界是不完美的是有缺陷的完美的世界只存在于理想中对于软件帝国的缔造者来说程序也是不完美的异常情况会随时出现我们需要它
系统调用(int 0x80)详解

1 系统调用初始化在系统启动时会在sched init void 函数中调用set system gate 0x80 system call 设置中断向量号0x80的中断描述符 define set system gate n addr
Python基础知识题库（带答案）

单项选择题第一章python语法基础 1 Python 3 x 版本的保留字总数是C A 27 B 29 C 33 D 16 2 以下选项中不是 Python 语言保留字的是C A while B pass C do D except
python爬取网页的方法总结,python3.9爬取网页教程

大家好小编为大家解答python 爬取网页内容并保存到数据库的问题很多人还不知道利用python爬取简单网页数据步骤现在让我们一起来看看吧需求分析今天遇到一个简单的需求需要下载澳大利亚电力市场NEM日前市场的发电商报价数据 ne

python爬取网页的方法总结,python3.9爬取网页教程

需求分析

步骤

结果

源代码

python爬取网页的方法总结,python3.9爬取网页教程 的相关文章

随机推荐

热门标签

python爬取网页的方法总结,python3.9爬取网页教程的相关文章