python 网络爬虫（慕课网）

2023-05-16

代码：

##爬取网络：慕课网（"https://www.imooc.com/"）

from bs4 import BeautifulSoup
import urllib.request
import xlwt
import time

time_star = time.time()
ur = ["mobile","python","java","php"]  ##通过查看网页源代码，手动构造访问链接
url_basic, mingc, lianj, url, hda, x = [], [], [], [], [], 1

for j in range(len(ur)):
    url_basic.append("http://www.imooc.com/course/list?c=" + ur[j] +"&page=")
    for i in range(7): ##网页个数最多为7
        urll = url_basic[j] + str(i)
        url.append(urll) 


heads = {
     'Connection': 'keep-alive',
    'Accept-Language': 'zh-CN,zh;q=0.9',
     'Accept': 'text/html,application/xhtml+xml,application/xml;\
     q=0.9,image/webp,image/apng,*/*;q=0.8',
     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36\
    (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
}

for key,value in heads.items():
    items = (key,value)
    hda.append(items)
    
opn = urllib.request.build_opener()
opn.addheaders = hda
urllib.request.install_opener(opn)

for i in url:
    try:  ##当网页不存在时，跳过本次循环，以便程序继续执行
        data = opn.open(i).read()
        soup = BeautifulSoup(data,'lxml')
        coursenames = soup.find_all('h3',class_="course-card-name")
        links = soup.find_all('a',class_="course-card")
    except:
        continue
    for cour in coursenames:
        coursenames = cour.get_text()
        mingc.append(coursenames)
        x += 1  
    for link in links:
        links = 'https://www.imooc.com'+str(link['href'])
        lianj.append(links)


header = ["序号","课程名称","课程链接"]
with open(r"C:\Users\AdamCY\Desktop\wenjian\python爬虫\py_spa.xlsx", "w",encoding='utf-8') as file:   
    file = xlwt.Workbook(encoding = 'utf-8')  
    sheet = file.add_sheet('hello')  
    sheet.write(0, 0, header[0]) ##此处尚需优化：学习用一行代码插入三列的标题（表头）
    sheet.write(0, 1, header[1])
    sheet.write(0, 2, header[2])
    for i in range(x-1):
        sheet.write(i+1, 0, i+1)
        sheet.write(i+1, 1, mingc[i])  
        sheet.write(i+1, 2, lianj[i])   
        file.save(r"C:\Users\AdamCY\Desktop\wenjian\python爬虫\py_spa.xlsx")

time_spend = time.time() - time_star
print(time_spend)  ##运行结果为32秒，代码执行速度太慢，还需要进一步优化

结果：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python 网络爬虫（慕课网）的相关文章

程序员的成长之路：回顾初心，质疑自我

经过3 4年的成长期 xff0c 你说日常写代码无压力 xff0c 代码质量也可以 xff0c 完成日常工作后 xff0c 就不知道做什么 xff1f 如果现在的你正好是这么一种状态 xff0c 想提升却不知道往哪走 xff1f 那你一定进
CentOS 7中安装Oracle JDK

1 前往Oracle官网http www oracle com technetwork java javase downloads index html下载JDK xff0c 这里我们选择rpm包 xff08 注意 xff1a 下载前须接受
给android程序添加页面,向 Android 应用中添加闪屏页和启动页

向 Android 应用中添加闪屏页和启动页开启 Flutter 的体验需要短暂地等待 Dart 的初始化一个完整的 Flutter 应用还额外需要 Android 应用程序标准的初始化时间 Flutter 支持在 Android 应用
ArchLinux必备命令记录(manjaro)

1 添加新账户 useradd username新建账户 useradd d home xxx m xxx创建用户 xff0c 并同时生成用户目录 xff0c 不然账户无法正常启用 passwd username修改密码 userdel f
js使用lottie读取json文件并修改文件参数后渲染

js使用lottie读取json文件并修改文件参数后渲染 1 效果图说明 xff1a 车辆模型是通过json文件渲染的 2 代码 2 1 引入lottie js xff08 如果没有 xff0c 网上资源很多 xff0c 请自行下载 xf
Mybatis基础+增删改查（代码示例）

目录 Mybatis基础 43 增删改查 xff08 代码示例 xff09 首先什么是MyBatis xff1f MyBatis中文文档 xff08 学习参考资料 xff09 xff1a MyBatis 基础框架搭建源码 xff1a MyB
KVM虚拟化工具简介及安装

1 KVM简介 Kernel based Virtual Machine的简称 xff0c 是一个开源的系统虚拟化模块 xff0c 自Linux2 6 20之后集成在Linux的各个主要发行版本中它使用Linux自身的调度器进行管理 xf
按键消抖

按键消抖按键是FPGA实验工程中常见的电子元器件 xff0c 通常用作系统复位信号或者控制外部信号的输入按键消抖主要针对的是机械弹性开关 xff08 按下去 xff0c 一旦松开就会弹上去 xff09 xff0c 当机械触点断开闭合
java ee 值范围_JAVAEE之内置对象和属性范围

内置对象和属性范围四种属性范围九个内置对象 1 内置对象如果说想要使用一个对象 xff0c 必须new 出来 xff0c 但是在我们的jsp操作中 xff0c 发现我们使用过的out request对象没有进行实例化 xff0c 类似
VsCode C++使用相对路径读取文件失败的原因及解决方案

VsCode C 43 43 使用相对路径读取文件失败的原因及解决方案 1 读取失败的原因2 解决方案 1 读取失败的原因文件读取失败的原因之一便是文件路径错误 xff0c 这里的错误包含两个方面 xff1a 一个是路径中的某个文件夹或者
Ngnix https重定向后变成http问题解决

一开始页面报错 Mixed Content span class token operator span The page at span class token string 39 xxx 39 span was loaded over
python文件传输库,python 基于selectors库实现文件上传与下载

server py import selectors import socket import os import time BASE DIR 61 os path abspath os path dirname file class se
python爬虫获取服务器信息,通过python自动化获取服务器信息，并写入到excel(示例代码)...

简介这篇文章主要介绍了通过python自动化获取服务器信息 xff0c 并写入到excel 示例代码以及相关的经验技巧 xff0c 文章约943字 xff0c 浏览量170 xff0c 点赞数4 xff0c 值得参考 xff01 博主目前
idea : 程序包org.apache.ibatis.annotations不存在,已经引进了，为什么还报错呢

问题 xff1a 在使用idea打开从git上下载的maven项目时 xff0c 在进行对dao层 build 报错程序包org apache ibatis annotations不存在 xff0c 查看项目依赖 xff0c 实际上已经引
Collections类

Java基础类之Collections工具类一介绍Collections类 java util Collections 类是Java 提供的一个操作 Set List 和 Map 等集合的工具类 xff0c 服务于Collection框
ArrayBuffer copy

function copy src var dst 61 new ArrayBuffer src byteLength new Uint8Array dst set new Uint8Array src return dst
订单和产品的多对多表关系在crudapi系统零代码实现

表关系管理在上一篇序列号管理中 xff0c 产品和销售订单都是孤立的单表 xff0c 本文通过crudapi中表关系 relation 管理将多个表连接起来 xff0c 形成一个整体概要关系类型表与表之间的关系 xff08 rela
E/libc: Access denied finding property “vendor.camera.aux.packagelist“

输出台日志 xff1a E libc Access denied finding property vendor camera aux packagelist 前提 xff1a 1 app有各类权限 2 app代码无明显问题 3 常见于扫码
android rtsp server or clinet work success

感谢 pedroSG94大神的rtmp rtsp stream client java的库此为我改造的一个类代码地址 pedroSG94提供了camera xff0c 录屏和opengl渲染的demo类 xff0c 本人改造的类可以向外暴
Etcher Flash Failed 校验时失败

U盘问题

随机推荐

opengles的总结

fbo camera
chromium内核支持openxr

Blink实现了在浏览器页签中所有的渲染工作 Chromium拥有一套多进程架构 Chromium有一个浏览器进程和多个带有沙盒能力的渲染进程 Blink则运行在渲染进程中 Mojo是一系列库的集合 xff0c 用于提供一种进程内或跨进程的
iqoo neo6 flutter camera插件 recorder 相机录像变绿

现象 xff1a 1 预览没问题 2 手机也支持yuv420888 3 录制结果偏绿分析 xff1a 本来认为手机不支持yuv420888 xff0c 经过打印camera2的支持参数是都支持的况且显示是没问题的 1 跑了一个基础的ca
Json转化带有List集合数据解决带有多余引号

Json转化带有List集合数据 xff0c 如果要求该list数据转化后中括号外无双引号且无转移 xff0c 这种只能在jsonObject put jsonArray jsonArray xff0c 如果是jsonObject put
程序包android.support.v7.app不存在的解决办法

1 错误原因 xff1a 因为没有成功引入v7的包 xff0c 所以会报这个错误 2 错误体现 xff1a 报错找不到包或者报错style xml找不到什么什么主题 xff0c 根本原因如上 3 为何错误 xff1a 为何会导入不成功 xf
Windows 11终端美化配置

Windows 11终端美化配置 windows11 终端配置美化下载安装terminal安装oh my posh安装power shell coreposh配置工具软件安装我们可以从Microsoft store上下载termina
Spring两种配置方式

Spring有两种配置方式 xff0c 分别为XML配置与java文件配置 xff0c 其实两者本质上是一模一样的 xff0c 只不过用java文件配置的好处是少了一个读文件的过程 xff0c 可以将两种配置方式结合对应起来总结首先了解一
[玩机技巧] [续航][省电][coloros11] 提升续航的终极方案

usr bin env bash adb shell pm disable user com android dynsystem 快应用 adb shell pm disable user user 0 com nearme instant
think php获取m方法的查询数据库,ThinkPHP 查询数据 select（findAll）方法

ThinkPHP 查询数据 ThinkPHP 查询数据主要提供以下几类查询 xff1a select xff1a 普通查询 xff0c 同 findAll 方法 find xff1a 取得符合查询条件的一条记录 getBy动态查询 xff1
wps一直显示正在备份怎么办_华硕笔记本开机显示：正在准备自动修复怎么办？...

今天有位知友问坚哥 xff0c 说自己的是华硕的笔记本 xff0c 今天开机就出现状况了 xff0c 开机就直接桌面显示 xff1a 正在准备自动修复 xff0c 然后过一阵子显示 xff1a 正在诊断你的电脑之后 xff0c 就出现 x
python 分析两组数据的差异_TGCA数据的标准化以及差异分析

前面我们从GDC下载了TCGA肿瘤数据库的数据也能够把GDC下载的多个TCGA文件批量读入R 今天我们讲一下TCGA数据的标准化 xff0c 以及差异分析 xff0c 得到了标准化后的数据 xff0c 我们就可以按照以前的帖子 xff0c
gfsk调制频谱_gfsk调制方式

fsk gfsk调制解调程序原 5页 2下载券喜欢此文档的还喜欢 FSK调制方式 2页免费 FSK调制解调论文 14页 1下载券 FSK调制 8页免费第二章2课FSK GFSK 是高斯频移键控的简写在调制之前通过一个高斯低通滤波器
html网页设计思路,极简主义网页设计思路与原则

极简主义是一种风格 xff0c 也是很多高级设计师都信奉的原则之一它在室内装修设计 xff0c 人物造型设计 xff0c 时尚搭配服装设计 xff0c 平面vi包装设计以及本文重点提到的网页设计等方面 xff0c 都有着很多经典的案例素
maven详细配置教程

以后会更好文章目录 maven下载 maven配置 maven环境变量配置 maven配置文件 IDEA配置maven Eclipse配置maven maven下载 maven下载官网 xff1a 点击点击进去官网 xff0c 点击Do
qt 生产者-消费者模型学习

我参考的网址 xff1a https mp weixin qq com s wh9RLbDwP1AoNy50i4WEdg https www cnblogs com chentingk p 6497107 html 生产者消费者模型生产
ftp服务器文件夹设置,ftp服务器对文件夹设置权限

ftp服务器对文件夹设置权限内容精选换一换将对象权限设置为匿名用户读取权限 xff0c 通过分享对象URL xff0c 匿名用户通过分享的链接地址可访问对象数据已经设置匿名用户对该对象的读取权限权限开启方法请参见对匿名用户授予指定
arch linux安装全过程,Arch Linux安装全过程

8种机械键盘轴体对比本人程序员 xff0c 要买一个写代码的键盘 xff0c 请问红轴和茶轴怎么选 xff1f 内容安装arch linux系统全过程精华完全原创亲自安装解释很详细以下所有markdown行内代码是实际要运行的
html checkbox 使用方法,jquery中checkbox使用方法简单实例演示

和大家分享一段基于jQuery实现checkbox列表全选反选和不选功能的代码 xff0c 适用于网页多选后需要进行批量操作的场景如批量删除等文章结合实例 xff0c 代码简洁 xff0c 基本覆盖选项选择操作的方方面面 xff0c
知识分享之MariaDB——各种数据类型的取值范围

知识分享之MariaDB 各种整数取值范围背景日常我们开发时 xff0c 我们会遇到各种各样的奇奇怪怪的问题踩坑o o xff0c 这个常见问题系列就是我日常遇到的一些问题的记录文章系列 xff0c 这里整理汇总后分享给大家 xff0
python 网络爬虫（慕课网）

代码 xff1a 爬取网络 xff1a 慕课网 xff08 34 https www imooc com 34 xff09 from bs4 import BeautifulSoup import urllib request import

python 网络爬虫（慕课网）

python 网络爬虫（慕课网） 的相关文章

随机推荐

热门标签

python 网络爬虫（慕课网）的相关文章