内附源码！使用Python和requests库轻松爬取全国高校排名

2023-10-29

前言

中国的大学排名数据比较分散，一些权威机构会发布综合排名，如教育部的“双一流”、“985”、“211”计划，还有一些机构会发布专业排名等。因此，具体爬取哪些排名数据可能需要根据实际需要来进行筛选。

代码实现

导入requests库和BeautifulSoup库：import requests和from bs4 import BeautifulSoup。requests库用于发送HTTP请求、获取响应数据，BeautifulSoup库则用于解析HTML数据，提供了方便的HTML DOM结构遍历和搜索的方法。

import requests
from bs4 import BeautifulSoup

定义get_rank_data()函数，用于爬取排名数据：函数内部首先定义了目标URL：url = 'https://www.shanghairanking.cn/rankings/bcur/2021'，用于访问全国高校排名主页面。然后定义了请求头信息：headers = {'User-Agent': '...'}，该信息包含了当前访问者的浏览器、操作系统等信息，有助于模拟浏览器对目标站点进行访问。
使用requests库发送HTTP请求：response = requests.get(url, headers=headers)，requests.get()方法向目标URL发送了一条GET请求，同时传入了请求头信息，返回的响应数据保存在response对象中。

# 发送HTTP请求并获取响应数据
def get_rank_data():
    url = 'https://www.shanghairanking.cn/rankings/bcur/2021'
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    response = requests.get(url, headers=headers)

解析HTML数据：使用BeautifulSoup库对响应数据进行解析：soup = BeautifulSoup(response.text, 'html.parser')，response对象的text属性包含了获取到的HTML文本数据，将其传入BeautifulSoup()构造函数中，返回一个BeautifulSoup对象。接着，使用该对象的find()和find_all()方法轻松定位和提取目标元素。

    # 解析HTML数据
    soup = BeautifulSoup(response.text, 'html.parser')
    tbody = soup.find('tbody')
    trs = tbody.find_all('tr')

提取排名数据：tbody = soup.find('tbody')和trs = tbody.find_all('tr')，分别使用find()和find_all()方法定位到排名数据所在的HTML元素，在这里是table的tbody和tr元素。然后遍历所有的tr元素，使用find_all()方法提取每个tr元素下的td元素，并使用get_text()方法获取元素中的文本内容。将排名数据存入一个列表中，使用字典的形式保存：rank_data.append({'rank': rank, 'name': name, 'location': location, 'category': category})。

    # 提取排名数据
    rank_data = []
    for tr in trs:
        tds = tr.find_all('td')
        if tds:
            rank = tds[0].get_text()
            name = tds[1].get_text()
            location = tds[2].get_text()
            category = tds[3].get_text()
            rank_data.append({'rank': rank, 'name': name, 'location': location, 'category': category})

    return rank_data

if __name__ == '__main__':
    rank_data = get_rank_data()
    for data in rank_data:
        print(f'{data["rank"]}: {data["name"]} ({data["location"]}) - {data["category"]}')

总结

上述代码使用了第三方库requests和BeautifulSoup，首先访问了教育部网站中“双一流”高校名单所在的页面，然后使用BeautifulSoup解析HTML页面中的表格数据（表格的HTML结构可能会随着页面结构的变化而变化），最后将数据以元组的形式存入了results列表中。

哈哈哈哈哈哈哈，人工智能果然牛批

可以将代码中的url修改为别的具有相关数据的地址，如各大高校的官网、排名网站等，然后对爬取到的数据进行处理和清洗，以适应你的可视化需求。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

开发语言

内附源码！使用Python和requests库轻松爬取全国高校排名的相关文章

Django REST序列化器：创建对象而不保存

我已经开始使用 Django REST 框架我想做的是使用一些 JSON 发布请求从中创建一个 Django 模型对象然后使用该对象而不保存它我的 Django 模型称为 SearchRequest 我所拥有的是 api view
Python、Tkinter、更改标签颜色

有没有一种简单的方法来更改按钮中文本的颜色 I use button text input text here 更改按下后按钮文本的内容是否存在类似的颜色变化 button color red Use the foreground设置按钮
如何使用固定的 pandas 数据框进行动态 matplotlib 绘图？

我有一个名为的数据框benchmark returns and strategy returns 两者具有相同的时间跨度我想找到一种方法以漂亮的动画风格绘制数据点以便它显示逐渐加载的所有点我知道有一个matplotlib animat
如何等到 Excel 计算公式后再继续 win32com

我有一个 win32com Python 脚本它将多个 Excel 文件合并到电子表格中并将其另存为 PDF 现在的工作原理是输出几乎都是 NAME 因为文件是在计算 Excel 文件内容之前输出的这可能需要一分钟如何强制工作簿计算值
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
Python tcl 未正确安装

我刚刚为 python 安装了graphics py 但是当我尝试运行以下代码时 from graphics import def main win GraphWin My Circle 100 100 c Circle Point 50
keras加载模型错误尝试将包含17层的权重文件加载到0层的模型中

我目前正在使用 keras 开发 vgg16 模型我用我的一些图层微调 vgg 模型拟合我的模型训练后我保存我的模型model save name h5 可以毫无问题地保存但是当我尝试使用以下命令重新加载模型时load mod
python pandas 中的双端队列

我正在使用Python的deque 实现一个简单的循环缓冲区 from collections import deque import numpy as np test sequence np array range 100 2 resha
Pandas Dataframe 中 bool 值的条件前向填充

问题如何转发 fill boolTruepandas 数据框中的值如果是当天的第一个条目 True 到一天结束时请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
使用 OpenPyXL 迭代工作表和单元格，并使用包含的字符串更新单元格[重复]

这个问题在这里已经有答案了我想使用 OpenPyXL 来搜索工作簿但我遇到了一些问题希望有人可以帮助解决以下是一些障碍待办事项我的工作表和单元格数量未知我想搜索工作簿并将工作表名称放入数组中我想循环遍历每个数组项并搜索包含特
HTTPS 代理不适用于 Python 的 requests 模块

我对 Python 还很陌生我一直在使用他们的 requests 模块作为 PHP 的 cURL 库的替代品我的代码如下 import requests import json import os import urllib impor
Python - 按月对日期进行分组

这是一个简单的问题起初我认为很简单而忽略了它一个小时过去了我不太确定所以我有一个Python列表datetime对象我想用图表来表示它们 x 值是年份和月份 y 值是此列表中本月发生的日期对象的数量也许一个例子可以更好地证明这
Numpy 优化

我有一个根据条件分配值的函数我的数据集大小通常在 30 50k 范围内我不确定这是否是使用 numpy 的正确方法但是当数字超过 5k 时它会变得非常慢有没有更好的方法让它更快 import numpy as np N 5000
如何改变Python中特定打印字母的颜色？

我正在尝试做一个简短的测验并且想将错误答案显示为红色欢迎来到我的测验您想开始吗是的祝你好运法国的首都是哪里法国随机答案不正确的答案我正在尝试将其显示为红色我的代码是 print Welcome to my Quiz be
从 pygame 获取 numpy 数组

我想通过 python 访问我的网络摄像头不幸的是由于网络摄像头的原因 openCV 无法工作 Pygame camera 使用以下代码就像魅力一样 from pygame import camera display camera in
Nuitka 未使用 nuitka --recurse-all hello.py [错误] 编译 exe

我正在尝试通过 nuitka 创建一个简单的 exe 这样我就可以在我的笔记本电脑上运行它而无需安装 Python 我在 Windows 10 上并使用 Anaconda Python 3 我输入 nuitka recurse all h
glpk.LPX 向后兼容性？

较新版本的glpk没有LPXapi 旧包需要它我如何使用旧包例如COBRA http opencobra sourceforge net openCOBRA Welcome html 与较新版本的glpk 注意COBRA适用于 MATL
用于运行可执行文件的python多线程进程

我正在尝试将一个在 Windows 上运行可执行文件并管理文本输出文件的 python 脚本升级到使用多线程进程的版本以便我可以利用多个核心我有四个独立版本的可执行文件每个线程都知道要访问它们这部分工作正常我遇到问题的地方是当它们
协方差矩阵的对角元素不是 1 pandas/numpy

我有以下数据框 A B 0 1 5 1 2 6 2 3 7 3 4 8 我想计算协方差 a df iloc 0 values b df iloc 1 values 使用 numpy 作为 cov numpy cov a b I get ar
Python 分析：“‘select.poll’对象的‘poll’方法”是什么？

我已经使用 python 分析了我的 python 代码cProfile模块并得到以下结果 ncalls tottime percall cumtime percall filename lineno function 13937860 9

随机推荐

【Linux】——实现一个简单shell(命令行解释器)

进程替换替换原理用fork创建子进程后执行的是和父进程相同的程序但有可能执行不同的代码分支子进程往往要调用一种exec函数以执行另一个程序当进程调用一种exec函数时该进程的用户空间代码和数据完全被新程序替换从新程序的启动例程
数据库SQLite在Qt5+VS2012使用规则总结---中文乱码

VS2012默认格式为 GB2312 80 而有时我们用到字符串需要显示中文时就会出现乱码下面仅就Qt5和VS2012中使用数据库SQLite时做一个简单的备忘录 1 include
Android Studio格式化代码设置和代码风格设置、代码提示键

自从google大力推出android studio开发android IDE工具之后最近大家都切换到android studio 但是切换过来之后各种不顺手快捷键就是一个大问题本来在eclipse中用的好好的快捷键愣是不顺手了
Telink BLE MESH开发环境搭建（Windows版本）

windows系统环境搭建获取Telink IDE 下载Telink IDE 安装Telink IDE 解压软件包用管理员权限运行TelinkSDKv1 3 1 exe 如上图安装到C盘不可安装到其他盘会报错打开运行Eclipse
【带你了解C++标准库为何在八大链表结构中选择了它】双向循环带头链表的实质性操作

文章目录八大链表结构为何选择了它初始化和打印尾插和尾删头插和头删查找和插入删除和销毁小结链表功能动画演示逻辑实现text c 头文件List h 函数实现List c 八大链表结构为何选择了它 C 的STL库选择的最终链表
AE已支持M1芯片mac安装（After Effects 20直装版M1安装方法）M1芯片处理器安装AE问题教程

作为一名视频编辑创作者一直都是用苹果的Mac电脑运行AE制作影片就在今年11月份苹果发布了基于Apple Silicon M1 SoC芯片打造新Mac产品全新的M1处理器的诞生带来了很多革命性的变化因为这标志着苹果正式开启了从In
Kaptcha实现验证码

文章目录依赖配置类使用依赖
华为OD机试 - MELON的难题 - 动态规划（Java 2023 B卷 100分）

目录一题目描述二输入描述三输出描述四动态规划五解题思路六 Java算法源码七效果展示 1 输入 2 输出 3 说明华为OD机试 2023B卷题库疯狂收录中刷题点这里一题目描述 MELON有一堆精美的雨花石
van-field输入数字失焦后强制保留两位小数

van field输入数字失焦后强制保留两位小数一 html 二 JS部分 1 watch监听 2 强制控制有两位小数一 html
设计模式浅析-适配器模式

前言 2017年悄悄的来了无声无息的以至于我都还没好好缅怀一下荒诞的2016 不得不说 2016没能通过努力达到应该有的程度看样子目标还是要有的那就先设定一个小目标吧设计模式当你学会了设计模式就要忘记设计模式辉哥适配器模式
华为手机隐藏指令的5个代码

第一个拨号键输入 6130 这个指令主要用于查看手机当前的网络信号手机基本信息以及手机的使用情况数据的统计尤其是手机使用情况统计数据可以查看当前手机上次使用了哪些应用使用的具体时间以及使用的时长第二个拨号键输入 2846579
MySQL 数据库存储引擎

目录一存储引擎简介二 MyISAM存储引擎 1 MylSAM介绍 2 MyISAM表支持3种不同的存储格式 3 MylSAM的特点 4 MyISAM使用的生产场景三 InnoDB存储引擎 1 InnoDB介绍 2 InnoDB的特点
ubuntu18.04下pass-through直通realteck PCI设备到qemu-kvm虚拟机实践

设备直通是一种虚拟化资源分配方式通过将物理设备直通给虚拟机环境达到虚拟机可以直接访问物理设备的目的直通功能对设备的要求不高不需要设备支持PF VF 目前市面上的显卡网卡一般都支持直通典型场景比如有两块显卡一块主机用另一块虚拟
前端如何实现浏览器适配？

1 根据window screen width获取当前浏览器的宽度然后根据宽度加载不同的样式文件注意这里的script一定要写在head标签里面这样在加载页面的之前会先把css文件加载出来 2 媒体查询根据设备显示器的特性为其设
python 根据索引取值_Python 从列表中取值和取索引的方法

如下所示 name list zhangsan lisi wangwu 1 取值 print name list 0 print name list 1 print name list 2 2 取索引 print name list ind
北京市经济和信息化局：鼓励布局区块链算力中心

近日北京市经济和信息化局印发北京市数据中心统筹发展实施方案 2021 2023年的通知方案提出鼓励布局人工智能区块链算力中心推动形成 4000PFlops 即每秒 4 百亿亿次浮点运算总算力规模的人工智能公共算力基础设施重
GEN 自动生成 GORM 模型结构体文件及使用示例

GEN 自动生成 GORM 模型结构体文件及使用示例背景 GEN 是一个基于 GORM 的安全 ORM 框架由字节跳动无恒实验室与 GORM 作者联合研发主要功能说白了就是帮助生成数据表对应的模型文件和更安全方便地执行SQL 直接使用
短链服务架构实践

1 存储采用REDIS做数据存储 2 id keyword gt long url hset key long url id keyword long url 3 md5 long url gt id keyword hset key sh
队列的实际应用和操作（顺序表）

题目利用队列求解报数问题设有n个人站成一排从左向右的编号分别为1 n 现在从左往右报数 1 2 1 2 数到 1 的人出列数到 2 的立即站到队伍的最右端报数过程反复进行直到n个人都出列为止要求给出他们的出列顺序头文件SqQ
内附源码！使用Python和requests库轻松爬取全国高校排名

目录前言代码实现总结前言中国的大学排名数据比较分散一些权威机构会发布综合排名如教育部的双一流 985 211 计划还有一些机构会发布专业排名等因此具体爬取哪些排名数据可能需要根据实际需要来进行筛选代码实现导入req

内附源码！使用Python和requests库轻松爬取全国高校排名

目录

前言

代码实现

总结

内附源码！使用Python和requests库轻松爬取全国高校排名 的相关文章

随机推荐

热门标签

内附源码！使用Python和requests库轻松爬取全国高校排名的相关文章