Python爬取ppt工作项目模板

2023-11-09

前言

ppt模板爬取,大约有一百多套工作项目ppt模板,需要的小伙伴可以通过以下程序来下载!

(1)爬取程序

# author:爱分享的山哥
import requests
from bs4 import BeautifulSoup
import random
import os
import time


def getHeaders():
    user_agent_list = [\
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1" \
        "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11", \
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6", \
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6", \
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1", \
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5", \
        "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5", \
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \
        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3", \
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3", \
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \
        "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3", \
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24", \
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
    ]
    UserAgent = random.choice(user_agent_list)
    headers = {'User-Agent': UserAgent}
    return headers
if not os.path.exists('./PPT/'):
    os.mkdir('./PPT/')


headers = getHeaders()
# 分页
for i in range(0,10):
    url = "http://www.51pptmoban.com/e/search/result/index.php?page={}&searchid=2194".format(str(i))
    res = requests.get(url=url,headers=headers).text

    #  bs4解析数据
    # 1.使用通用爬虫解析首页,获取每个ppt的url
    soup = BeautifulSoup(res,'lxml')
    url_list = soup.select('.pptlist > dl dd')
    for dd in url_list:
        dowm_url = 'http://www.51pptmoban.com'+dd.div.a['href']

        # 对url下载的地址发送请求,获取下载页面
        res = requests.get(url=dowm_url, headers=headers).text
        soup = BeautifulSoup(res, 'lxml')

        # 新知识点
        node = soup.find('div',class_='ppt_xz')
        new_url = 'http://www.51pptmoban.com/'+node.a['href']

        # 获取名字
        div = soup.find('div',class_='title')
        # 解决乱码
        name = (div.div.h1.get_text()).encode("iso-8859-1").decode("gbk")

        # 获取到下载地址的页面之后,对下载地址的url进行请求
        res = requests.get(url=new_url, headers=headers).text
        soup = BeautifulSoup(res, 'lxml')
        dowm = soup.find('div',class_='down')
        url = dowm.a['href']
        dowm_rar_url = 'http://www.51pptmoban.com/e/DownSys/GetDown/'+''.join(url.split('/')[2:])
        ppt_date = requests.get(url=dowm_rar_url, headers=headers).content
        path = './PPT/'+name+'.zip'
        try:
            with open(path,'wb') as fp:
                fp.write(ppt_date)
            print("%s爬取完成!"%name)
            time.sleep(1)
        except:
            print('无法爬取%s!'%name)
            continue

    print('第一页爬取完成!')
    time.sleep(5)  # 减慢爬取速度,防止被发现

2.爬取结果:
在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python爬取ppt工作项目模板 的相关文章

  • [python知识] 爬虫知识之BeautifulSoup库安装及简单介绍

    一 前言 在前面的几篇文章中我介绍了如何通过Python分析源代码来爬取博客 维基百科InfoBox和图片 其文章链接如下 python学习 简单爬取维基百科程序语言消息盒 Python学习 简单网络爬虫抓取博客文章及思想介绍 python
  • selenium对浏览器操作、鼠标操作等总结

    1 控制浏览器 Selenium 主要提供的是操作页面上各种元素的方法 但它也提供了操作浏览器本身的方法 比如浏览器的大小以及浏览器后退 前进按钮等 1 1 控制浏览器窗口大小 在不同的浏览器大小下访问测试站点 对测试页面截图并保存 然后观
  • 爬取中国移动用户问答

    最近一个好朋友在搞爬虫 问了很多问题 所以干脆直接写了一个范例 这个程序整体要两次解析网页 第一层是分析网页中的json数据来获取qtid 第二层是用qtid来解析获得问答所在的网页 因为在问答网页里的数据存储是引用的数据库中的数据 所以不
  • 【2】Python爬虫:分析AJAX传递的JSON获取数据-初步分析动态网页(1)

    前言 这是本人写的第二篇文章 希望能够帮助到一些和我一样的python爬虫初学者 在第一篇文章中 我总结了最近学到的利用requests和bs4第三方库共同作用 基本可以应对python获取静态网页数据的相关问题 但是如果现实中的网页往往比
  • 直接使用POST方法登录网站

    浏览器在 POST 数据之后能够自动登录 那么我能不能在代码中直接模拟这个过程呢 于是我设定了这样的一个流程 1 设置浏览器的 headers 设置请求等 2 使用 httpfox 工具获取post data 3 将post data 写下
  • 没有50W彩礼,该怎么办

    大家好 我是才哥 刚过完春节 作为到了已婚甚至被催婚年龄的我们也开始讨论一个自古既有的话题 彩礼 今天上午 看到朋友圈刷屏了一个B站UP主的视频 没有50W彩礼 女朋友被强行拖走 我该怎么办 看完视频只想说 https www bilibi
  • 大数据采集概述

    文章目录 大数据采集概述 1 互联网大数据与采集 1 1互联网大数据来源 1 社交媒体 2 社交网络 3 百科知识库 4 新闻网站 5 评论信息 6 位置型信息 1 2 互联网大数据的特征 1 大数据类型和语义更加丰富 2 数据的规范化程度
  • 入门Python必备100道练习题

    给大家整理了这份今天给大家分享100道Python练习题 在此之前 先给大家推荐一个工具 是一个对 Python 运行原理进行可视化分析的工具 Python Tutor 点击 Next 按钮就会根据执行步骤显示原理 对新手理解代码运行原理有
  • Anaconda简介

    anaconda是python发行的包的管理工具 其中自带python的版本 还带很多python的包 安装它比安装python好 可以省掉再安装python包的时间 推荐使用Anaconda 用Anaconda安装python的包是非常便
  • 知乎美女挖掘指南--Python实现自动化图片抓取、颜值评分

    声明 文中所有文字 图片以及相关外链中直接或间接 明示或暗示涉及性别 颜值分数等信息全部由相关人脸检测接口给出 无任何客观性 仅供参考 1 数据源 知乎 话题 美女 下所有问题中回答所出现的图片 2 抓取工具 Python 3 并使用第三方
  • Python爬虫10-Selenium模拟登录

    目录 10 1Selenium和PhantomJS和headless chrome 10 1 1Selenium的概念和安装 10 1 2浏览器的选择和安装 10 2Selenium和PhantomJS与Chrome的配合使用 10 2 1
  • 某乎搜索接口x-zse-96参数逆向学习分析,网站:aHR0cHM6Ly93d3cuemhpaHUuY29tLw==

    目标参数 x zse 96 参数分析 全局搜索x zse 96 只有两个地方出行 打上断点后刷新网页 从图中断点地方可以看到 搞清楚u f s 的由来就解决了x zse 96 可以看到s参数是由以下几部分组成 1 101 3 2 0 固定版
  • requests请求

    请求方式 requests get 发送get请求 通过params传递参数 requests post 发送post请求 通过json data 传递参数 data 数据报文 dict字典类型 默认情况下请求头为applilcation
  • 跳过selenium检测爬取淘宝直通车

    最近 有对阿里商家端进行一些数据爬取 这次爬取的是直通车人群溢价数据 发现对selenium的检测相当厉害 然而我的回答是 你强任你强 清风拂山岗 咱人工登录怕过谁 什么cokies user agent selenium检测 token
  • [Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒

    前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒 同样可以通过Spider获取网站内容 最近学习了Selenium Phantomjs后 准备利用它们获取百度百科的旅游景点消息盒 InfoBox 这也是毕业设计实体对齐和属
  • python是真刑啊!爬虫这样用,离好日子越铐越近了~

    一个程序员写了个爬虫程序 整个公司200多人被端了 不可能吧 刚从朋友听到这个消息的时候 我有点不太相信 做为一名程序员来讲 谁还没有写过几段爬虫呢 只因写爬虫程序就被端有点夸张了吧 朋友说 消息很确认并且已经进入审判阶段了 01 对消息进
  • 05笔趣阁小说爬取--爬取作者所有小说

    前面的程序已经实现了从笔趣阁自动爬取整部小说 接下来在之前的基础上 将功能进一步扩展 实现自动爬取某一作者在笔趣阁中的所有小说 继续以方想为例 下图是方想作品列表的页面 https www 52bqg com modules article
  • 高考失利,还适合选计算机专业吗??

    前言 高考落榜 人生陷入低谷 对于很多人来说 这意味着梦想的破灭和无尽的绝望 但是 对于我来说 这只是人生旅程的一个起点 我喜欢编程也热爱编程 虽然网上很多言论说计算机行业已经很卷了 但是我却认为无论再哪个行业 你不卷 也同样落后于人 所以
  • Python爬虫-MongoDB

    Python爬虫 MongoDB 文章目录 Python爬虫 MongoDB 前言 与MySQL对比 启动 关闭MongoDB 操作 数据库操作 集合操作 数据操作 增 删 改 查 保存 运算符 高级操作 聚合 常用管道 常用表达式 安全性
  • 做PPT必须知道这5个PPT模板网站

    做PPT千万不能错过这5个网站 免费下载 各种类型风格很齐全 建议收藏起来 1 菜鸟图库 https www sucai999 com search ppt 0 0 0 1 html v NTYxMjky 菜鸟图库素材非常齐全 设计 办公

随机推荐

  • 持续集成/技术交付全流程流水线工具的设计与落地

    文章目录 持续集成 技术交付全流程流水线工具的设计与落地 概述 工具架构设计 主要功能模块 代码库 Jenkins 流水线 代码构建 自动化测试 产品部署 监控报警 使用方法 步骤一 安装 Jenkins 步骤二 创建 Jenkins 流水
  • 汇编语言(王爽第三版)实验十七

    实验十七 这道题我也不知道写的对不对 逻辑上应该没啥问题 但是运行起来好像没效果 题目和个人思路 安装一个新的int 7ch中断例程 实现通过逻辑扇区号对软盘进行读写 参数说明 1 用ah寄存器传递功能号 0表示读 1表示写 2 用dx寄存
  • vue中下载文件导出保存到本地

    vue中下载文件导出保存到本地 先分析如何下载 先有一个链接地址 然后使用 location href或window open 下载到本地 看看返回数据 res config url 中是下载链接地址 res data 中是返回的二进制数据
  • 结构体指针变量使用方法举例

    include
  • 报表设计

    最近在做任务报表方面的工作 之前一直以为查询和报表是一样东西 虽说 报表是查询的一种展示模式 但是做分析时 还是应该将以区别 报表 多样的格式 动态的数据 报表是我们想要数据展示的一种形态 就像是各种图表 例如 你想查询小明的名字 查询可以
  • 使用Nginx实现多个网站代理[多端口监听][django][资源服务器]

    使用Nginx实现多个网站代理 导航 原文链接 使用Nginx实现多个网站代理 导言 nginx是网站开发后期一个不可缺少的应用 nginx的作用是 请求代理 监听请求并转发给对应端口的进程处理 资源代理 使用nginx直接将服务器资源共享
  • IntelliJ IDEA部署tomcat时出现No artifacts marked for deployment

    这种错误主要是因为没有设置导出包 解决方法 File gt Project Structure gt Artifacts 然后点击ok 然后记得apply ok 此时再回到问题所在 点击Fix即可 或者如下 启动 打开浏览器复制下面网址 h
  • 数学建模--决策树的预测模型的Python实现

    目录 1 算法流程简介 2 算法核心代码 3 算法效果展示 1 算法流程简介 决策树的应用 对泰坦尼克号数据集成员进行预测生死 算法流程还是比较简单的 简单学习一下决策树跟着注释写即可 文章参考 https zhuanlan zhihu c
  • GROUP BY分组单个和多个字段不同条件所查询出来的结果不同

    第一次查询 代码如下 select from test 结果中 按照b列来分 则是 5个a 3个b 按照c列来分 则是 4个甲 4个乙 第二次 查询按照 b列来分组 代码如下 select count a b from test group
  • cordova-plugin-file-transfer cordova plugin下载不到问题解决记录

    环境 cordova 11 1 0 node 16 前提 安卓项目需要支持一些功能 升级到androidX所以一些插件需要更新 使用github方式可能会报ssh需要publicKey相关问题 不想用私人账号进行git github com
  • c++ uint32转为int_轻松实现C/C++各种常见进制相互转换

    这篇文章主要介绍了轻松实现C C 各种常见进制相互转换 文中通过示例代码介绍的非常详细 对大家的学习或者工作具有一定的参考学习价值 需要的朋友们下面随着小编来一起学习学习吧 adsbygoogle window adsbygoogle pu
  • 融云「百幄」之视频会议和直播,让办公桌无限延伸

    2020 年 为避免人员流动造成聚集性感染 全世界各地不少企业开始允许员工居家办公 跨地域 跨终端协同办公行业迎来井喷式增长 视频会议 疫 外爆发 关注 融云 RongCloud 了解协同办公平台更多干货 2022 年 全球疫情仍在蔓延 对
  • Qt,QEvent

    QEvent Class The QEvent class is the base class of all event classes Event objects contain event parameters More include
  • Gabor滤波器与特征提取

    一 Gabor滤波器 Gabor滤波器 最主要使用优势体现在对物体纹理特征的提取上 二维Gabor基函数能够很好地描述哺乳动物初级视觉系统中一对简单视觉神经元的感受野特性 随着小波变换和神经生理学的发展 Gabor变换逐渐演变成二维Gabo
  • HTTP项目常见状态码笔记(200,302,400,403,404,405,500...),

    目录 认识 状态码 status code 出现200 403 Forbidden 出现404 404 Not Found 出现 405 Method Not Allowed 出现 500 Internal Server Error 504
  • windows如何让电脑朗读你的文字

    在使用电脑的过程中 常常需要文字能够自动朗读 那么你是如何解决的呢 其实可以不借助任何外部软件 而使用windows记事本就能简单将任意文字转化成语音朗读 步骤1 新建一个记事本 注意记事本的默认后缀名为 txt 步骤2 打开记事本 在记事
  • python库和模块的区别_python中模块、包、库的区别和使用

    模块 就是 py文件 里面定义了一些函数和变量 需要的时候就可以导入这些模块 包 在模块之上的概念 为了方便管理而将文件进行打包 包目录下第一个文件便是 init py 然后是一些模块文件和子目录 假如子目录中也有 init py 那么它就
  • Docker 数据迁移

    问题描述 docker存储目录磁盘空间不够了 需要迁移到新的磁盘 忒扣了 迁移分析 迁移数据前向客户说明时间 提前告知业务部门系统维护相关事宜 查看中间件状态 应用服务是否正常 正常情况下才可停止服务进行下一步 停止应用 中间件等程序 停止
  • 解决问题记录10:JAVA调用,kettle资源库连接mysql8小时后报错问题

    先说解决方法 最终我的解决方式是使用心跳机制 创建了一个很简单的查询作业 让它每3小时执行一次 这几天在凌晨1点是跑kettle作业时遇到了一个问题 报错如下 The last packet successfully received fr
  • Python爬取ppt工作项目模板

    前言 ppt模板爬取 大约有一百多套工作项目ppt模板 需要的小伙伴可以通过以下程序来下载 1 爬取程序 author 爱分享的山哥 import requests from bs4 import BeautifulSoup import