Python网络爬虫：爬取CSDN热搜数据并保存到本地文件中

2023-11-03

hello，大家好，我是wangzirui32，今天我们来学习如何爬取CSDN热搜数据，并保存到Excel表格中。
开始学习吧！

学习目录

1. 数据包抓取
2. 编写代码

1. 数据包抓取

打开CSDN首页，再打开检查（或为审查元素，各大浏览器不同，笔者用的是FireFox浏览器），点击“网络”（或是Network），再点击搜索框，可以看到出现了4个请求：
爬取数据包经过分析，发现网址为：

https://silkroad.csdn.net/api/v2/assemble/list/channel/pc_hot_word?channel_name=pc_hot_word&size=10&user_name=wangzirui32&platform=pc&imei=10_19279376140-1610717024696-925673

返回的数据为：
json数据看来，这就是热搜数据的原地址，但是，我们先不着急编写代码，前面说了url是很长的，但是我们可以删减url参数，毕竟有些url的参数是用来迷惑各位爬虫程序员的，删减后的url为：

https://silkroad.csdn.net/api/v2/assemble/list/channel/pc_hot_word?size=10

看见没，url只剩下了一个参数，不仅降低了编写网页参数字典的难度，还可以控制爬取热搜的数量（size参数），岂不妙哉！

2. 编写代码

import requests
from fake_useragent import UserAgent

"""
fake_useragent库安装：pip install fake-useragent
fake_useragent库是用来生成请求头中的User-Agent信息
"""

headers = {
    "User-Agent": UserAgent().random,
    "Host": "silkroad.csdn.net",
}

url = "https://silkroad.csdn.net/api/v2/assemble/list/channel/pc_hot_word"

params = {
    "size": "10",
}
print("获取数据...")
r = requests.get(url, params=params, headers=headers)

print("解析数据...")
json_data = r.json()['data']['items']

hot_content_list = []

# 从json数据中提取热搜内容并存储到列表中
for i in json_data:
    hot_content = i["productId"]
    hot_content_list.append(hot_content)

print("保存数据...")
with open("CSDN-Hot.txt", "w") as f:
    num = 1 # 序号
    for i in hot_content_list:
        f.write(str(num) + " " + i + "\n")
        num += 1

print("爬取结束！热搜数据已经保存到CSDN-Hot.txt文件中！")

运行代码，打开CSDN-Hot.txt文件，可以看到：

1 QQ读取用户浏览记录
2 SQL注入漏洞防护
3 程序员离职小技巧
4 2021美赛数学建模
5 linux命令行大全
6 python新手练习题
7 高质量自学网站
8 eclipse安装教程
9 Linux常用命令大全
10 机器学习

好了，今天的课程就到这里，感兴趣的可以点个赞和收藏，我们下次再见！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python网络爬虫：爬取CSDN热搜数据并保存到本地文件中的相关文章

如何替换 Pandas Dataframe 中不在列表中的所有值？ [复制]

这个问题在这里已经有答案了我有一个值列表如何替换 Dataframe 列中不在给定值列表中的所有值例如 gt gt gt df pd DataFrame D ND D garbage columns S gt gt gt df S 0
让 VoiceChannel.members 和 Guild.members 返回完整列表的问题

每当我尝试使用 VoiceChannel members 或 Guild members 时它都不会提供适用成员的完整列表我从文本命令的上下文中获取 VoiceChannel 和 Guild 如下所示 bot command name
Gunicorn 工作人员无论如何都会超时

我正在尝试通过gunicorn运行一个简单的烧瓶应用程序但是无论我做什么我的工作人员都会超时无论是否有针对应用程序的活动工作人员在我设置任何内容后总是会超时timeout值到是什么导致它们超时当我发出请求时请求成功通过但工作
如何在 __init__ 中使用await设置类属性

我如何定义一个类await在构造函数或类体中例如我想要的 import asyncio some code class Foo object async def init self settings self settings setti
我应该使用 Python 双端队列还是列表作为堆栈？ [复制]

这个问题在这里已经有答案了我想要一个可以用作堆栈的 Python 对象使用双端队列还是列表更好元素数量较少还是数量较多有什么区别您的情况可能会根据您的应用程序和具体用例而有所不同但在一般情况下列表非常适合堆栈 append is
嵌套列表的重叠会产生不必要的间隙

我有一个包含三个列表的嵌套这些列表由 for 循环填充并且填充由 if 条件控制第一次迭代后它可能类似于以下示例 a 1 2 0 0 0 0 0 0 4 5 0 0 0 0 0 0 6 7 根据条件它们不重叠在第二次迭代之后新
从Django中具有外键关系的两个表中检索数据？ [复制]

这个问题在这里已经有答案了 This is my models py file from django db import models class Author models Model first name models CharFie
矩形函数的数值傅里叶变换

本文的目的是通过一个众所周知的分析傅里叶变换示例来正确理解 Python 或 Matlab 上的数值傅里叶变换为此我选择矩形函数这里报告了它的解析表达式及其傅立叶变换https en wikipedia org wiki Rectan
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
未知错误：Chrome 无法启动：异常退出

当我使用 chromedriver 对 Selenium 运行测试时出现此错误 selenium common exceptions WebDriverException Message unknown error Chrome fail
嵌套作用域和 Lambda

def funct x 4 action lambda n x n return action x funct print x 2 prints 16 我不太明白为什么2会自动分配给n n是返回的匿名函数的参数funct 完全等价的定义fu
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
pandas - 包含时间序列数据的堆积条形图

我正在尝试使用时间序列数据在 pandas 中创建堆积条形图 DATE TYPE VOL 0 2010 01 01 Heavy 932 612903 1 2010 01 01 Light 370 612903 2 2010 01 01 Me
如何以正确的方式为独立的Python应用程序制作setup.py？

我读过几个类似的主题但还没有成功我觉得我错过或误解了一些基本的事情这就是我失败的原因我有一个用 python 编写的应用程序我想在标准 setup py 的帮助下进行部署由于功能复杂它由不同的 python 模块组成但单独
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
每当使用 import cv2 时 OpenCV 都会出错

我在终端上使用 pip3 install opencv contrib python 安装了 cv2 并且它工作了但是每当我尝试导入 cv2 或运行导入了 cv2 的 vscode 文件时在 python IDLE 上它都会说 Trac
等待子进程使用 os.system

我用了很多os system在 for 循环内调用创建后台进程如何等待所有后台进程结束 os wait告诉我没有子进程 ps 我使用的是Solaris 这是我的代码 usr bin python import subprocess imp
pandas.read_csv 将列名移动一倍

我正在使用位于的 ALL zip 文件here http www fec gov disclosurep PDownload do 我的目标是用它创建一个 pandas DataFrame 但是如果我跑 data pd read csv
NLTK：查找单词大小为 2k 的上下文

我有一个语料库我有一个词对于语料库中该单词的每次出现我想获取一个包含该单词之前的 k 个单词和该单词之后的 k 个单词的列表我在算法上做得很好见下文但我想知道 NLTK 是否提供了一些我错过的功能来满足我的需求 def size

随机推荐

nginx禁用3DES和DES弱加密算法

nginx禁用3DES和DES弱加密算法项目背景最近护网行动收到漏洞报告如下漏洞名称 SSL TLS协议信息泄露漏洞 CVE 2016 2183 原理扫描详细描述 TLS是安全传输层协议用于在两个通信应用程序之间提供保密性和数
创建第一个phpstorm项目（phpstorm+Apache）

创建第一个phpstorm项目 1 点击新建项目 2 选择新建空项目 3 选择新建项目位置由于要使用apache 所以项目一定要建在apache下的htdocs下 4 给项目命完名 5 再次确认文件位置是否正确点击创建 6 为新创建的项
matplotlib刻度值使用科学记数法

原本 plot 出的图 y 轴刻度值太多 0 想用科学记数法去掉后面那些 0 效果要设置 ax ticklabel format style sci scilimits 1 2 axis y 其中 style sci 指明用科学记数法
GoFrame 代码生成工具【gf】SQLite ORM映射报错： unknown driver “sqlite3“ (forgotten import?)

1 环境 Windows10 golang1 7 GoFrame1 16 SQLite3 2 异常执行 gf gen dao 生成代码时报错 unknown driver sqlite3 forgotten import 3 排查官方文
EduCoder_web实训作业--播放视频

第一关 B A C B AC 第二关
【C++学习第七讲】简单变量（一）

目录简单变量一简单变量 1 变量名 2 整型 3 整型short int long和long long 面向对象编程 OOP 的本质是设计并扩展自己的数据类型设计自己的数据类型就是让类型与数据匹配如果正确做到了这一点将会发现以后
博客志第一天——判断一个整数N是否是完全平方数？

关注博客园很久今天是第一次写博客先附上一个C题目写一个函数判断一个整数是否为完全平方数同时是否该数的各位数至少两个相同的数字 1 include
期货开户要注意轻仓止损

保持同一比例的仓位比如说每次做一手赚了5次然后有一次做了10手亏了一次那么可能把前面赚的钱全亏回去排除任何的主观预测根据实际行情走势来操作而不是根据自己的预测或是期望或是恐惧来操作不能因为预测行情涨而买入也不能因为预
动态修改el-input样式；动态修改elmentUI元素样式；css变量

场景正常我们动态修改div元素的样式使用 style和 class即可但是我们想要动态修改element的组件样式时候例如el input字体颜色由于el input的样式嵌套很深我们需要修改的实际是 el input inne
arxiv文章下载速度慢解决方法

arxiv文章下载速度慢解决方法一 arxiv网站作用参考知乎链接 Arxiv是一个免费张贴和下载预印本的网站最初用于高能物理和粒子物理学家之间的交流如今已经发展到了物理学的各个领域且延伸到了物理数学非线性科学计算机科学数
autoscan、aclocal、automake和autoconf区别【转】

转自 https blog csdn net renhui1112 article details 96480535 autoscan 扫描源代码以搜寻普通的可移植性问题比如检查编译器库头文件等生成文件configure scan
Git-2-网络仓库使用

本文内容介绍需要连接到远程网络并实现远程网络的同步远程网络库最常见的是GitHub 是国外的服务器用户最多网络库中的资源最多网络可能会不稳定这里采用国内的网络仓库Gitee码云使用中文界面比较适合初学者使用 0 首先介绍下
2023华数杯A题隔热材料的结构优化控制研究(论文+代码)

目录问题一问题2 问题3 离子群算法代码 Matlab 离子群算法代码 python
CTF学习-eric靶机练习:使用git tools获取敏感目录,提权

Kali渗透测试靶场练习eric 实验 Kali的IP 192 168 1 11 不同的机器配置不同靶机IP 192 168 1 6 动态ip 操作步骤靶机下载 https www vulnhub com entry sp eric
【Windows10+wsl2+Ubuntu20.04】安装nvidia驱动问题

使用windows命令行工具可以顺利查看nvidia smi 但在Ubuntu中执行命令行nvidia rmi后显示 Failed to initialize NVML GPU access blocked by the operating
[4G+5G专题-141]: 终端 - 测试仪表详解

作者主页文火冰糖的硅基工坊文火冰糖王文兵的博客文火冰糖的硅基工坊 CSDN博客本文网址 https blog csdn net HiWangWenBing article details 123070605 目录第1章本章在
Unity Shader入门精要第3 章 Unity Shader 基础

Unity系列文章目录文章目录 Unity系列文章目录前言一 Unity Shader 概述二使用步骤 1 3 1 2 Unity 中的材质 2 Unity 中的Shader 3 Unity Shader 的基础 ShaderLa
python 时间加8小时后的时间

eta temp one arrival encode utf 8 fd datetime datetime strptime eta temp Y m dT H M SZ 加8后的时间eta fd datetime timedelta h
sudo提权漏洞cve-2023-22809

1 影响版本 Sudo 1 8 0 1 9 12p1均受影响 2 sudo V查看当前sudo版本 3 exp usr bin env bash Exploit Title sudo 1 8 0 1 9 12p1 Privilege Esc
Python网络爬虫：爬取CSDN热搜数据并保存到本地文件中

hello 大家好我是wangzirui32 今天我们来学习如何爬取CSDN热搜数据并保存到Excel表格中开始学习吧学习目录 1 数据包抓取 2 编写代码 1 数据包抓取打开CSDN首页再打开检查或为审查元素各大浏览器不同

Python网络爬虫：爬取CSDN热搜数据 并保存到本地文件中