第一个爬虫程序,基于requests和BeautifulSoup

2023-10-26

断断续续学了1年多python,最近总算感觉自己入门了,记录下这几天用requests和BeautifulSoup写的爬虫。
python的环境是anaconda+pycharm。
直接上代码

@requires_authorization
"""
    作者:西瓜不是我的
    日期:2017年12月26日
    功能:爬取全国每个城市各个监测点的AQI
    版本:v11.0
"""
import requests
from bs4 import BeautifulSoup
import csv

def get_city_area_aqi(url):
    '''
        获取城市监测点aqi
    '''
    r = requests.get(url, timeout=20)
    soup = BeautifulSoup(r.text, 'lxml')
    area_name = soup.find_all('thead')  # len = 1
    area_final_name = area_name[0].find_all('th')  # len = 13
    area_aqi = soup.find_all('tbody')  # len = 1
    area_final_aqi = area_aqi[0].find_all('tr')  # len = 13
    # 各监测点名称
    area_name_list = []
    # 最终目录
    final_list = []
    # 为各监测点名称列表赋初值
    for i in range(len(area_final_name)):
        area_name_list.append(area_final_name[i].text)
    # 将信息写入到最终目录中
    for i in range(len(area_final_aqi)):
        final_aqi = area_final_aqi[i].text.strip()
        aqi = final_aqi.split('\n')
        for j in range(len(area_name_list)):
            final_list.append((area_name_list[j], aqi[j]))
    return final_list

def write_to_csv(final_list,city_name):
    '''
        将获取到的city_aqi列表写到csv文件中
    '''
    with open('aqi.csv', 'a', encoding='utf-8', newline='') as f:
        writer = csv.writer(f)
        row = [city_name]
        # for循环用来写csv文件的数据行
        for i, name in enumerate(final_list):
            row.append(name[1])
            if (i + 1) % 11 == 0:
                writer.writerow(row)
                row = [city_name]

def get_all_city_name(url):
    '''
        获取所有城市的中文名和英文名
    '''
    r = requests.get(url,timeout = 30)
    soup = BeautifulSoup(r.text, 'lxml')
    city_div = soup.find_all('div',{'class':'bottom'})[1]
    city_name_list = city_div.find_all('a')

    city_name = []
    for name in city_name_list:
        name_text = name.text
        name_pinyin = name['href'][1:]
        city_name.append((name_text,name_pinyin))
    return city_name



def main():
    url = 'http://www.pm25.in'
    all_city_list = get_all_city_name(url)
    #写csv文件的第一行,即标题行
    write_row = ['city','监测点','AQI','空气质量','首要污染物','PM2.5','PM10','CO','NO2','O3-1','O3-8','SO2']
    with open('aqi.csv', 'w', encoding='utf-8', newline='') as f:
        writer = csv.writer(f)
        writer.writerow(write_row)
    #先获取所以城市的英文名,根据英文名找到对应的url,再获得每个城市各监测点的aqi值,最后写入到scv文件中
    for i,city in enumerate(all_city_list):
        city_name = city[0]
        city_pinyin = city[1]
        url = 'http://www.pm25.in/' + city_pinyin
        city_list = get_city_area_aqi(url)
        write_to_csv(city_list,city_name)
        #只爬取10个城市
        if i == 10:
            break

if __name__=='__main__':
    main()

运行结果

第一次用markdown,就写这么多。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

第一个爬虫程序,基于requests和BeautifulSoup 的相关文章

随机推荐

  • Python 邻接矩阵实现无向图、有向图的三种方法,并绘图显示

    网上查了很多资料 发现主要是使用邻接表来实现图 并进行遍历的 而采用邻接矩阵的就非常少 不得已 就只有闭门造车 埋头苦修 小有成果 供后来学习者研究 通过二维数组建立无向图 通过二维数组建立有向图 通过边建立有向图 为方便查看 通过Netw
  • 【模块介绍】WS2812(硬件部分)

    目录 引脚定义 电气属性 电路连接 PCB 软件部分 引脚定义 这是数据手册中引脚定义图和连接方式 可以看出 这个灯是自带芯片控制R G B三色的亮度 可以通过上级的DOUT gt 下级的DIN来使其进行级联 电容官方建议是使用100nF
  • 【元壤教育AI提示工程系列】『KeepChatGPT教程』轻松解决ChatGPT网络报错,畅享无忧沟通!

    元壤教育 中国AIGC提示工程培训的佼佼者 关注 元壤教育 公众号 系统学习AIGC系列课程 提升您10倍生产力 装插件前是这样的 我们使用ChatGPT时 总是因为网络魔法不力的原因导致页面总是报错 如下图所示 装完插件后是这样的 外链图
  • Java整合Redis实现腾讯云短信服务(轻松入门,超详细)

    目录 Java使用腾讯云短信服务 一 短信服务简介 二 准备工作 二 Java操作 三 项目链接 Java使用腾讯云短信服务 一 短信服务简介 首先我们要大致知道短信服务是干什么的 云服务提供商通过短信服务向手机号发送短信 我们可以在云服务
  • PowerShell切换路径

    打开PowerShell 输入以下代码 加将要转换的路径 回车 Set location Path
  • iOS学习笔记一

    文章目录 一 深浅拷贝 二 消息转发机制 三 运行时添加一个类 一 深浅拷贝 浅拷贝只是将指针赋值 而深拷贝进行了内容传递 在Objective C中 NSObject的拷贝方式有两种 copy和mutablecopy 对于NSString
  • 我的2013

    今天是2013年的最后一天 天气格外的晴朗 站在公司的写字楼上 能够看到远处的山水 一直都习惯在一年的最后总结一下 总结自己哪些地方在成长 哪些地方有收获 哪些地方需要改进 但是最近一两年来 却很难回忆一些什么 因为每天都过的差不多 今天下
  • 96道前端面试题+前端常用算法

    这篇文章主要分享一些收集整理的面试题 希望能对大家有所帮助 字节 一面 1 说一下浏览器缓存 2 cookie 与 session 的区别 3 浏览器如何做到 session 的功能的 4 解释一下 csrf 和 xss 5 怎么防止 cs
  • TypeError: load() missing 1 required positional argument: ‘Loader‘

    最近使用yaml load 时报错 TypeError load missing 1 required positional argument Loader 记录原因 YAML 5 1版本后弃用了yaml load file 这个用法 因为
  • 面向对象编程思想

    面向对象编程思想 Object Oriented Programming 面向过程编程思想面向过程核心思想 自顶向下 逐步求精 面向对象编程思想面向对象核心思想 以对象为单位 将解决客观世界问题的方式方法引入到编程领域中 面向对象编程是面向
  • SpringBoot 2.x应用监控配置

    Springboot 2 x应用监控 作用 用于管理 监控应用 暴露自身信息 减少应用系统在采集应用指标的开发量 1 添加依赖
  • 区块链基本概念(一)

    区块链的基本概念 其概念为 区块链是一个去中心化的分布式数据库 改数据库有一串使用密码学方法产生的数据区块有序连接而成 区块中包含有一定时间内产生的无法被篡改的数据记录信息 区块中包含数据记录 当前区块根哈希 Hash 前一区块根哈希 时间
  • Java注解与反射详解

    Java注解与反射详解 注解 Annotations 是Java语言中的一项功能强大的特性 它们提供了一种在源代码中添加元数据的方式 注解可以用于标记 配置和处理程序中的元素 如类 方法 字段等 而反射 Reflection 是Java的一
  • 鸿鹄工程项目管理系统em Spring Cloud+Spring Boot+前后端分离构建工程项目管理系统

    Java版工程项目管理系统 Spring Cloud Spring Boot Mybatis Vue ElementUI 前后端分离 功能清单如下 首页 工作台 待办工作 消息通知 预警信息 点击可进入相应的列表 项目进度图表 选择 总体或
  • [羊城杯 2023] web

    文章目录 D0n t pl4y g4m3 D0n t pl4y g4m3 打开题目 可以判断这里为php Development Server 启动的服务 查询得知 存在 PHP lt 7 4 21 Development Server源码
  • 第5讲 Java注释详解

    您的 关注 和 点赞 是认可 是支持 是动力 如意见相佐 可留言 本人必将竭尽全力试图做到准确和全面 终其一生进行修改补充更新 本文首发在IT羊资源网 IT羊资源网 网址 https www ityangzy com IT羊资源网是IT世界
  • 从零开始编写JNI

    最近项目中用到了JNI 本以为很简单的 没想到花了我一天的时间才搞定 主要是在过程中遇到了一个大坑 下面就详细说说 出现的问题是这样的 代码一运行到System loadLibrary xxx 时 就提示java lang Unsatisf
  • 修改omv的国内镜像服务器,Openmediavault教程 篇二:软件源的更改以及社区插件启用...

    Openmediavault教程 篇二 软件源的更改以及社区插件启用 2021 01 11 17 54 49 6点赞 28收藏 16评论 更改软件源之前需要先将社区插件启用 这样就可以一起将源改变成国内镜像 这样免得后面安装插件的时候又要重
  • ubuntu 20.04 安装 微信,QQ等客户端,一键安装,亲测成功,最新更新,优麒麟

    之前一直使用网页版微信 但是聊天记录完全无法存留 一旦断网就会退出登录 然后每次登录都要确认 很麻烦 要是有ubuntu下的微信客户端就好了 但是并不是所有的客户端都一样好用 博主安装并实测了几个ubuntu下的微信客户端 发现基于wine
  • 第一个爬虫程序,基于requests和BeautifulSoup

    断断续续学了1年多python 最近总算感觉自己入门了 记录下这几天用requests和BeautifulSoup写的爬虫 python的环境是anaconda pycharm 直接上代码 requires authorization 作者