《爬虫系列之爬取PPT》

2023-10-26

这次不多BB,直接上代码系列。

import bs4
import requests

headers = {
    "user-agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36 Edg/109.0.1518.70'
}


def level3(URL):
    response = requests.get(URL)
    soup = bs4.BeautifulSoup(response.content, 'lxml')
    title = soup.select('dl>dt>h1>a')[0].get_text()

    zipURL = soup.select('.c1 a')[0]['href']
    zipResponse = requests.get(zipURL)
    file = open('C:\\Users\\Yezi\\Desktop\\Python\\Crawler\\PPT\\' + title + '.zip', 'wb')
    file.write(zipResponse.content)
    print(title + ' ^o^ 爬取成功 ^o^')


def level2(URL):
    response = requests.get(URL)
    soup = bs4.BeautifulSoup(response.content, 'lxml')
    level3('https://www.1ppt.com' + soup.select('.downurllist a')[0]['href'])


def level1(URL):
    response = requests.get(URL)
    soup = bs4.BeautifulSoup(response.content, 'lxml')
    ones = soup.select('.tplist h2>a')
    for one in ones:
        try:
            level2('https://www.1ppt.com' + one['href'])
        except:
            print('https://www.1ppt.com' + one['href'])

def pages():
    for page in range(10,186):
        URL='https://www.1ppt.com/xiazai/ppt_xiazai_{}.html'.format(page)
        level1(URL)
        print('^o^ 第{}页爬完 ^o^'.format(page))

pages()

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

《爬虫系列之爬取PPT》 的相关文章

随机推荐

  • python接口自动化(四)--接口测试工具介绍(详解)

    简介 工欲善其事必先利其器 通过前边几篇文章的介绍 大家大致对接口有了进一步的认识 那么接下来让我们看看接口测试的工具有哪些 目前 市场上有很多支持接口测试的工具 利用工具进行接口测试 能够提供测试效率 例如 假 入让你一天完成100个接口
  • docker-compose常见问题

    一 新版本网络桥接 问题 docker errors InvalidArgument host network mode is incompatible with port 1 24 0以前可以network mode host和ports
  • Python List 按照多个关键字排序

    最近刷刷题遇到的 发现还没有一模一样的答案 自己做个解答 以列表有两列为例 我们需要按照两列排序 可以利用sorted和lambda组合 l a 2 c 1 d 4 b 2 sorted l key lambda x x 1 x 0 rev
  • 小程序实现h5页面的微信支付php,微信小程序webview组件交互,内联h5页面并网页实现微信支付实现解析...

    前言 小程序支持webview以后 我们开发的好多h5页面 就可以直接在小程序里使用了 比如我们开发的微信商城 文章详情页 商品详情页 就可以开发一套 多处使用了 我们今天来讲一讲 在小程序的webview里实现微信支付功能 因为微信不允许
  • 面向对象、面向过程的思考

    把问题和答案记下来 过段时间再自己回答 几 次 2014年04月30号 师傅 思考一个问题 面向对象编程 和 面向过程编程 两类型的语言又什么区别 我 面向对象编程 最大的感觉就是分工的明确 从小的方面来说 就是把程序里面的一个个对象 类
  • 解剖上海交大女生无耻言论:只嫁外国人?

    上海交大MM的不嫁中国男人自白书原文 我是上海交大的一名女大学生 我第一次发帖子 写的不好 请大家表笑偶 每个人都有人生理想 有的人想成为英雄 有人的想成为富翁 有的人渴望成为领袖 我呢 人生最大的愿望就是嫁给一个西方男人 有人会说我很庸俗
  • 重定向与请求转发,以及它们之间的区别

    重定向 在某些情况下 针对客户端的请求 一个Servlet类可能无法完成全部工作 这时 可以使用请求重定向来完成 所谓请求重定向 是指Web服务器接收到客户端的请求后 可能由于某些条件限制 不能访问当前请求URL所指向的Web资源 而是指定
  • 高效管理之团队梯度建设

    经常听人讲 我们要建设高效的团队 如何提高团队的执行效率等等 空谈效率没有意义 这篇文章结合作者自身的经历 谈谈梯度团队是什么样子的 为什么一个有梯度的团队是高效的 以及在管理中如何建设这样的团队 梯度团队介绍 下图是我经历的一家中型互联网
  • Linux下VIM编辑器的详细使用

    1 VI编辑器的启动与退出 vi file1 新建一个文本文件为file1 q 在末行模式下退出 2 文本的操作 e file1 在当前文件下编辑新的文件 r etc passwd 实现文件的读入功能 wq 保持并退出 q 强行退出 3 光
  • Qt的容器类——QList

    定义 QList lt T gt 以数组列表形式实现 在其前后添加数组非常快 注意Qt中有很多函数返回了QList类型 要遍历这些返回的容器 必须先复制再遍历 因为Qt使用了隐式复制 所以开销并不大 当一个迭代器在操作一个容器时 不要复制这
  • 编码与解码

    什么是编码与解码 电脑是由电路板组成 电路板里面集成了无数的电阻和电容 交流电经过电容的时候 电压比较低 记为低电平 用0表示 交流电流过电阻的时候 电压比较高 记为高电平 用1来表示 所以每一个1 和0 在计算机中被称为 位 也就是bit
  • 微信开发ios上传图片到服务器,微信开发上传图片ios与安卓兼容问题

    首先检查一下引入js的版本 用最新的 直接上代码 kin img click function var ua navigator userAgent toLowerCase if ua match iphone i micromesseng
  • 使用 spring.profiles.active 及 @profile 注解 动态化配置内部及外部配置

    https blog csdn net swordsnapliu article details 78540902 引言 使用 spring profiles active 参数 搭配 Profile注解 可以实现不同环境下 开发 测试 生
  • I2C局部架构

    与子系统集成时候 APB Slave接口的master为AHB2APB Bridge I2C接口连接系统I2C总线 工作时候 先使用APB接口配置寄存器 决定I2C的工作模式 随后向指令寄存器写指令 使I2C进行数据传输操作 基本功能 可以
  • 最详细 openEuler 安装教程

    随着Centos的逐步转移 Centos8在2021年12月31号将停止维护 随而Centos7也将于2024年逐步停止维护 我们可以转向openEuler 也就是华为服务器操作系统 EulerOS 开源后命名为 openEuler 面向企
  • Android框架源码解析之(六)MultiType

    介绍 MultiType 可以简单 灵活的为RecyclerView实现多类型列表 MultiType介绍 https juejin im post 59702b606fb9a06ba14bc1b0 MultiType源码 https gi
  • Apache配置项目图片地址映射

    项目需求 将服务器物理磁盘上的某个目录 映射到apache能够访问到的url地址上 以此来达到图片和代码的分开部署 同时也方便项目后期的文件迁移 当图片资源变的越来越大 大到需要几个小时 甚至一整天的时间 来迁移图片资源时 这种分开部署的优
  • CMOS 图像传感器——Color Filter Array

    在介绍CMOS图像传感器的工作原理时候说道 像点 Sensor感光的基本单元叫做 像点 吸收入射光后会有一定概率激发出电子 这个过程叫做光电转换 光子激发出电子会被像点下方的电场捕获并存储起来备用 像点的作用可以类比成一个盛水的小桶 它可以
  • 数据库优化

    前言 毫不夸张的说咱们后端工程师 无论在哪家公司 呆在哪个团队 做哪个系统 遇到的第一个让人头疼的问题绝对是数据库性能问题 如果我们有一套成熟的方法论 能让大家快速 准确的去选择出合适的优化方案 我相信能够快速准备解决咱么日常遇到的80 甚
  • 《爬虫系列之爬取PPT》

    这次不多BB 直接上代码系列 import bs4 import requests headers user agent Mozilla 5 0 Windows NT 10 0 Win64 x64 AppleWebKit 537 36 KH