Python爬取ppt工作项目模板

2023-11-09

前言

ppt模板爬取，大约有一百多套工作项目ppt模板，需要的小伙伴可以通过以下程序来下载！

（1）爬取程序

# author：爱分享的山哥
import requests
from bs4 import BeautifulSoup
import random
import os
import time


def getHeaders():
    user_agent_list = [\
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1" \
        "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11", \
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6", \
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6", \
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1", \
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5", \
        "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5", \
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \
        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3", \
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3", \
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \
        "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3", \
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24", \
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
    ]
    UserAgent = random.choice(user_agent_list)
    headers = {'User-Agent': UserAgent}
    return headers
if not os.path.exists('./PPT/'):
    os.mkdir('./PPT/')


headers = getHeaders()
# 分页
for i in range(0,10):
    url = "http://www.51pptmoban.com/e/search/result/index.php?page={}&searchid=2194".format(str(i))
    res = requests.get(url=url,headers=headers).text

    #  bs4解析数据
    # 1.使用通用爬虫解析首页，获取每个ppt的url
    soup = BeautifulSoup(res,'lxml')
    url_list = soup.select('.pptlist > dl dd')
    for dd in url_list:
        dowm_url = 'http://www.51pptmoban.com'+dd.div.a['href']

        # 对url下载的地址发送请求，获取下载页面
        res = requests.get(url=dowm_url, headers=headers).text
        soup = BeautifulSoup(res, 'lxml')

        # 新知识点
        node = soup.find('div',class_='ppt_xz')
        new_url = 'http://www.51pptmoban.com/'+node.a['href']

        # 获取名字
        div = soup.find('div',class_='title')
        # 解决乱码
        name = (div.div.h1.get_text()).encode("iso-8859-1").decode("gbk")

        # 获取到下载地址的页面之后，对下载地址的url进行请求
        res = requests.get(url=new_url, headers=headers).text
        soup = BeautifulSoup(res, 'lxml')
        dowm = soup.find('div',class_='down')
        url = dowm.a['href']
        dowm_rar_url = 'http://www.51pptmoban.com/e/DownSys/GetDown/'+''.join(url.split('/')[2:])
        ppt_date = requests.get(url=dowm_rar_url, headers=headers).content
        path = './PPT/'+name+'.zip'
        try:
            with open(path,'wb') as fp:
                fp.write(ppt_date)
            print("%s爬取完成！"%name)
            time.sleep(1)
        except:
            print('无法爬取%s!'%name)
            continue

    print('第一页爬取完成！')
    time.sleep(5)  # 减慢爬取速度，防止被发现

2.爬取结果：
在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫项目

PPT模板

python爬虫

ppt爬取

Python爬取ppt工作项目模板的相关文章

[python知识] 爬虫知识之BeautifulSoup库安装及简单介绍

一前言在前面的几篇文章中我介绍了如何通过Python分析源代码来爬取博客维基百科InfoBox和图片其文章链接如下 python学习简单爬取维基百科程序语言消息盒 Python学习简单网络爬虫抓取博客文章及思想介绍 python
selenium对浏览器操作、鼠标操作等总结

1 控制浏览器 Selenium 主要提供的是操作页面上各种元素的方法但它也提供了操作浏览器本身的方法比如浏览器的大小以及浏览器后退前进按钮等 1 1 控制浏览器窗口大小在不同的浏览器大小下访问测试站点对测试页面截图并保存然后观
爬取中国移动用户问答

最近一个好朋友在搞爬虫问了很多问题所以干脆直接写了一个范例这个程序整体要两次解析网页第一层是分析网页中的json数据来获取qtid 第二层是用qtid来解析获得问答所在的网页因为在问答网页里的数据存储是引用的数据库中的数据所以不
【2】Python爬虫：分析AJAX传递的JSON获取数据-初步分析动态网页（1）

前言这是本人写的第二篇文章希望能够帮助到一些和我一样的python爬虫初学者在第一篇文章中我总结了最近学到的利用requests和bs4第三方库共同作用基本可以应对python获取静态网页数据的相关问题但是如果现实中的网页往往比
直接使用POST方法登录网站

浏览器在 POST 数据之后能够自动登录那么我能不能在代码中直接模拟这个过程呢于是我设定了这样的一个流程 1 设置浏览器的 headers 设置请求等 2 使用 httpfox 工具获取post data 3 将post data 写下
没有50W彩礼，该怎么办

大家好我是才哥刚过完春节作为到了已婚甚至被催婚年龄的我们也开始讨论一个自古既有的话题彩礼今天上午看到朋友圈刷屏了一个B站UP主的视频没有50W彩礼女朋友被强行拖走我该怎么办看完视频只想说 https www bilibi
大数据采集概述

文章目录大数据采集概述 1 互联网大数据与采集 1 1互联网大数据来源 1 社交媒体 2 社交网络 3 百科知识库 4 新闻网站 5 评论信息 6 位置型信息 1 2 互联网大数据的特征 1 大数据类型和语义更加丰富 2 数据的规范化程度
入门Python必备100道练习题

给大家整理了这份今天给大家分享100道Python练习题在此之前先给大家推荐一个工具是一个对 Python 运行原理进行可视化分析的工具 Python Tutor 点击 Next 按钮就会根据执行步骤显示原理对新手理解代码运行原理有
Anaconda简介

anaconda是python发行的包的管理工具其中自带python的版本还带很多python的包安装它比安装python好可以省掉再安装python包的时间推荐使用Anaconda 用Anaconda安装python的包是非常便
知乎美女挖掘指南--Python实现自动化图片抓取、颜值评分

声明文中所有文字图片以及相关外链中直接或间接明示或暗示涉及性别颜值分数等信息全部由相关人脸检测接口给出无任何客观性仅供参考 1 数据源知乎话题美女下所有问题中回答所出现的图片 2 抓取工具 Python 3 并使用第三方
Python爬虫10-Selenium模拟登录

目录 10 1Selenium和PhantomJS和headless chrome 10 1 1Selenium的概念和安装 10 1 2浏览器的选择和安装 10 2Selenium和PhantomJS与Chrome的配合使用 10 2 1
某乎搜索接口x-zse-96参数逆向学习分析，网站：aHR0cHM6Ly93d3cuemhpaHUuY29tLw==

目标参数 x zse 96 参数分析全局搜索x zse 96 只有两个地方出行打上断点后刷新网页从图中断点地方可以看到搞清楚u f s 的由来就解决了x zse 96 可以看到s参数是由以下几部分组成 1 101 3 2 0 固定版
requests请求

请求方式 requests get 发送get请求通过params传递参数 requests post 发送post请求通过json data 传递参数 data 数据报文 dict字典类型默认情况下请求头为applilcation
跳过selenium检测爬取淘宝直通车

最近有对阿里商家端进行一些数据爬取这次爬取的是直通车人群溢价数据发现对selenium的检测相当厉害然而我的回答是你强任你强清风拂山岗咱人工登录怕过谁什么cokies user agent selenium检测 token
[Python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒

前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒同样可以通过Spider获取网站内容最近学习了Selenium Phantomjs后准备利用它们获取百度百科的旅游景点消息盒 InfoBox 这也是毕业设计实体对齐和属
python是真刑啊！爬虫这样用，离好日子越铐越近了~

一个程序员写了个爬虫程序整个公司200多人被端了不可能吧刚从朋友听到这个消息的时候我有点不太相信做为一名程序员来讲谁还没有写过几段爬虫呢只因写爬虫程序就被端有点夸张了吧朋友说消息很确认并且已经进入审判阶段了 01 对消息进
05笔趣阁小说爬取--爬取作者所有小说

前面的程序已经实现了从笔趣阁自动爬取整部小说接下来在之前的基础上将功能进一步扩展实现自动爬取某一作者在笔趣阁中的所有小说继续以方想为例下图是方想作品列表的页面 https www 52bqg com modules article
高考失利，还适合选计算机专业吗？？

前言高考落榜人生陷入低谷对于很多人来说这意味着梦想的破灭和无尽的绝望但是对于我来说这只是人生旅程的一个起点我喜欢编程也热爱编程虽然网上很多言论说计算机行业已经很卷了但是我却认为无论再哪个行业你不卷也同样落后于人所以
Python爬虫-MongoDB

Python爬虫 MongoDB 文章目录 Python爬虫 MongoDB 前言与MySQL对比启动关闭MongoDB 操作数据库操作集合操作数据操作增删改查保存运算符高级操作聚合常用管道常用表达式安全性
做PPT必须知道这5个PPT模板网站

做PPT千万不能错过这5个网站免费下载各种类型风格很齐全建议收藏起来 1 菜鸟图库 https www sucai999 com search ppt 0 0 0 1 html v NTYxMjky 菜鸟图库素材非常齐全设计办公

随机推荐

持续集成/技术交付全流程流水线工具的设计与落地

文章目录持续集成技术交付全流程流水线工具的设计与落地概述工具架构设计主要功能模块代码库 Jenkins 流水线代码构建自动化测试产品部署监控报警使用方法步骤一安装 Jenkins 步骤二创建 Jenkins 流水
汇编语言(王爽第三版)实验十七

实验十七这道题我也不知道写的对不对逻辑上应该没啥问题但是运行起来好像没效果题目和个人思路安装一个新的int 7ch中断例程实现通过逻辑扇区号对软盘进行读写参数说明 1 用ah寄存器传递功能号 0表示读 1表示写 2 用dx寄存
vue中下载文件导出保存到本地

vue中下载文件导出保存到本地先分析如何下载先有一个链接地址然后使用 location href或window open 下载到本地看看返回数据 res config url 中是下载链接地址 res data 中是返回的二进制数据
结构体指针变量使用方法举例

include
报表设计

最近在做任务报表方面的工作之前一直以为查询和报表是一样东西虽说报表是查询的一种展示模式但是做分析时还是应该将以区别报表多样的格式动态的数据报表是我们想要数据展示的一种形态就像是各种图表例如你想查询小明的名字查询可以
使用Nginx实现多个网站代理[多端口监听][django][资源服务器]

使用Nginx实现多个网站代理导航原文链接使用Nginx实现多个网站代理导言 nginx是网站开发后期一个不可缺少的应用 nginx的作用是请求代理监听请求并转发给对应端口的进程处理资源代理使用nginx直接将服务器资源共享
IntelliJ IDEA部署tomcat时出现No artifacts marked for deployment

这种错误主要是因为没有设置导出包解决方法 File gt Project Structure gt Artifacts 然后点击ok 然后记得apply ok 此时再回到问题所在点击Fix即可或者如下启动打开浏览器复制下面网址 h
数学建模--决策树的预测模型的Python实现

目录 1 算法流程简介 2 算法核心代码 3 算法效果展示 1 算法流程简介决策树的应用对泰坦尼克号数据集成员进行预测生死算法流程还是比较简单的简单学习一下决策树跟着注释写即可文章参考 https zhuanlan zhihu c
GROUP BY分组单个和多个字段不同条件所查询出来的结果不同

第一次查询代码如下 select from test 结果中按照b列来分则是 5个a 3个b 按照c列来分则是 4个甲 4个乙第二次查询按照 b列来分组代码如下 select count a b from test group
cordova-plugin-file-transfer cordova plugin下载不到问题解决记录

环境 cordova 11 1 0 node 16 前提安卓项目需要支持一些功能升级到androidX所以一些插件需要更新使用github方式可能会报ssh需要publicKey相关问题不想用私人账号进行git github com
c++ uint32转为int_轻松实现C/C++各种常见进制相互转换

这篇文章主要介绍了轻松实现C C 各种常见进制相互转换文中通过示例代码介绍的非常详细对大家的学习或者工作具有一定的参考学习价值需要的朋友们下面随着小编来一起学习学习吧 adsbygoogle window adsbygoogle pu
融云「百幄」之视频会议和直播，让办公桌无限延伸

2020 年为避免人员流动造成聚集性感染全世界各地不少企业开始允许员工居家办公跨地域跨终端协同办公行业迎来井喷式增长视频会议疫外爆发关注融云 RongCloud 了解协同办公平台更多干货 2022 年全球疫情仍在蔓延对
Qt,QEvent

QEvent Class The QEvent class is the base class of all event classes Event objects contain event parameters More include
Gabor滤波器与特征提取

一 Gabor滤波器 Gabor滤波器最主要使用优势体现在对物体纹理特征的提取上二维Gabor基函数能够很好地描述哺乳动物初级视觉系统中一对简单视觉神经元的感受野特性随着小波变换和神经生理学的发展 Gabor变换逐渐演变成二维Gabo
HTTP项目常见状态码笔记(200,302,400,403,404,405,500...)，

目录认识状态码 status code 出现200 403 Forbidden 出现404 404 Not Found 出现 405 Method Not Allowed 出现 500 Internal Server Error 504
windows如何让电脑朗读你的文字

在使用电脑的过程中常常需要文字能够自动朗读那么你是如何解决的呢其实可以不借助任何外部软件而使用windows记事本就能简单将任意文字转化成语音朗读步骤1 新建一个记事本注意记事本的默认后缀名为 txt 步骤2 打开记事本在记事
python库和模块的区别_python中模块、包、库的区别和使用

模块就是 py文件里面定义了一些函数和变量需要的时候就可以导入这些模块包在模块之上的概念为了方便管理而将文件进行打包包目录下第一个文件便是 init py 然后是一些模块文件和子目录假如子目录中也有 init py 那么它就
Docker 数据迁移

问题描述 docker存储目录磁盘空间不够了需要迁移到新的磁盘忒扣了迁移分析迁移数据前向客户说明时间提前告知业务部门系统维护相关事宜查看中间件状态应用服务是否正常正常情况下才可停止服务进行下一步停止应用中间件等程序停止
解决问题记录10：JAVA调用，kettle资源库连接mysql8小时后报错问题

先说解决方法最终我的解决方式是使用心跳机制创建了一个很简单的查询作业让它每3小时执行一次这几天在凌晨1点是跑kettle作业时遇到了一个问题报错如下 The last packet successfully received fr
Python爬取ppt工作项目模板

前言 ppt模板爬取大约有一百多套工作项目ppt模板需要的小伙伴可以通过以下程序来下载 1 爬取程序 author 爱分享的山哥 import requests from bs4 import BeautifulSoup import

Python爬取ppt工作项目模板

前言

Python爬取ppt工作项目模板 的相关文章

随机推荐

热门标签

Python爬取ppt工作项目模板的相关文章