Python3 爬虫 requests+BeautifulSoup4(BS4) 爬取小说网站数据

2023-11-16

刚学Python爬虫不久，迫不及待的找了一个网站练手，新笔趣阁：一个小说网站。

前提准备

安装Python以及必要的模块（requests，bs4），不了解requests和bs4的同学可以去官网看个大概之后再回来看教程

爬虫思路

刚开始写爬虫的小白都有一个疑问，进行到什么时候爬虫还会结束呢？答案是：爬虫是在模拟真人在操作，所以当页面中的next链接不存在的时候，就是爬虫结束的时候。

1.用一个queue来存储需要爬虫的链接，每次都从queue中取出一个链接，如果queue为空，则程序结束
2.requests发出请求，bs4解析响应的页面，提取有用的信息，将next的链接存入queue
3.用os来写入txt文件

具体代码

需要把域名和爬取网站对应的ip 写入host文件中，这样可以跳过DNS解析，不这样的话，代码运行一段时间会卡住不动

'''
抓取新笔趣阁https://www.xbiquge6.com/单个小说
爬虫线路： requests - bs4 - txt
Python版本： 3.7
OS： windows 10
'''
import requests
import time
import sys
import os
import queue
from bs4 import BeautifulSoup 
# 用一个队列保存url
q = queue.Queue()
# 首先我们写好抓取网页的函数
def get_content(url):

    try:
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36',
        }

        r = requests.get(url=url, headers=headers)
        r.encoding = 'utf-8'
        content = r.text
        return content
    except:
        s = sys.exc_info()
        print("Error '%s' happened on line %d" % (s[1], s[2].tb_lineno))
        return " ERROR "

# 解析内容
def praseContent(content):
    soup = BeautifulSoup(content,'html.parser')
    chapter = soup.find(name='div',class_="bookname").h1.text
    content = soup.find(name='div',id="content").text
    save(chapter, content)
    next1 = soup.find(name='div',class_="bottem1").find_all('a')[2].get('href')
    # 如果存在下一个章节的链接，则将链接加入队列
    if next1 != '/0_638/':
        q.put(base_url+next1)
    print(next1)
# 保存数据到txt
def save(chapter, content):
    filename = "修罗武神.txt"
    f =open(filename, "a+",encoding='utf-8')
    f.write("".join(chapter)+'\n')
    f.write("".join(content.split())+'\n') 
    f.close

# 主程序
def main():
    start_time = time.time()
    q.put(first_url)
    # 如果队列为空，则继续
    while not q.empty():
        content = get_content(q.get())
        praseContent(content)
    end_time = time.time()
    project_time = end_time - start_time
    print('程序用时', project_time)

# 接口地址
base_url = 'https://www.xbiquge6.com'
first_url = 'https://www.xbiquge6.com/0_638/1124120.html'
if __name__ == '__main__':
    main()

总结

结果蛮成功的吧，就是过程比较慢，程序用时1个半小时。。23333继续学习，有改进方案的欢迎提出来，一起交流。
QQ:1156381157

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

爬虫

运维

Python3 爬虫 requests+BeautifulSoup4(BS4) 爬取小说网站数据的相关文章

使用Python开发Web应用程序

我一直在用 python 做一些工作但这都是针对独立应用程序的我很想知道 python 的任何分支是否支持 Web 开发有人还会建议一个好的教程或网站吗我可以从中学习一些使用 python 进行 Web 开发的基础知识既然大家都说
Python BigQuery 存储。并行读取多个流

我有以下玩具代码 import pandas as pd from google cloud import bigquery storage v1beta1 import os import google auth os environ G
Django REST序列化器：创建对象而不保存

我已经开始使用 Django REST 框架我想做的是使用一些 JSON 发布请求从中创建一个 Django 模型对象然后使用该对象而不保存它我的 Django 模型称为 SearchRequest 我所拥有的是 api view
使用 openCV 对图像中的子图像进行通用检测

免责声明我是计算机视觉菜鸟我看过很多关于如何在较大图像中查找特定子图像的堆栈溢出帖子我的用例有点不同因为我不希望它是具体的而且我不确定如何做到这一点如果可能的话但我感觉应该如此我有大量图像数据集有时其中一些图像是数据集的
如何生成给定范围内的回文数列表？

假设范围是 1 X 120 这是我尝试过的 gt gt gt def isPalindrome s check if a number is a Palindrome s str s return s s 1 gt gt gt def ge
Pycharm Python 控制台不打印输出

我有一个从 Pycharm python 控制台调用的函数但没有显示输出 In 2 def problem1 6 for i in range 1 101 2 print i end In 3 problem1 6 In 4 另一方面像
如何等到 Excel 计算公式后再继续 win32com

我有一个 win32com Python 脚本它将多个 Excel 文件合并到电子表格中并将其另存为 PDF 现在的工作原理是输出几乎都是 NAME 因为文件是在计算 Excel 文件内容之前输出的这可能需要一分钟如何强制工作簿计算值
打破嵌套循环[重复]

这个问题在这里已经有答案了有没有比抛出异常更简单的方法来打破嵌套循环在Perl https en wikipedia org wiki Perl 您可以为每个循环指定标签并且至少继续一个外循环 for x in range 10 fo
为 pandas 数据透视表中的每个值列定义 aggfunc

试图生成具有多个值列的数据透视表我知道我可以使用 aggfunc 按照我想要的方式聚合值但是如果我不想对两列求和或求平均值而是想要一列的总和同时求另一列的平均值该怎么办那么使用 pandas 可以做到这一点吗 df pd D
安装后 Anaconda 提示损坏

我刚刚安装张量流GPU创建单独的后环境按照以下指示here https github com antoniosehk keras tensorflow windows installation 但是安装后当我关闭提示窗口并打开新航站楼弹出
从列表中的数据框列中搜索部分字符串匹配 - Pandas - Python

我有一个清单 things A1 B2 C3 我有一个 pandas 数据框其中有一列包含用分号分隔的值某些行将包含与上面列表中的一项的匹配它不会是完美的匹配因为它在其中包含字符串的其他部分该列例如该列中的一行可能有哇这里
Python：字符串不会转换为浮点数[重复]

这个问题在这里已经有答案了我几个小时前写了这个程序 while True print What would you like me to double line raw input gt if line done break else f
当玩家触摸屏幕一侧时，如何让 pygame 发出警告？

我使用 pygame 创建了一个游戏当玩家触摸屏幕一侧时我想让 pygame 给出类似你不能触摸屏幕两侧的错误我尝试在互联网上搜索但没有找到任何好的结果我想过在屏幕外添加一个方块当玩家触摸该方块时它会发出警告但这花了很长
如何将 numpy.matrix 提高到非整数幂？

The 运算符为numpy matrix不支持非整数幂 gt gt gt m matrix 1 0 0 5 0 5 gt gt gt m 2 5 TypeError exponent must be an integer 我想要的是 oct
检查所有值是否作为字典中的键存在

我有一个值列表和一本字典我想确保列表中的每个值都作为字典中的键存在目前我正在使用两组来确定字典中是否存在任何值 unmapped set foo set bar keys 有没有更Pythonic的方法来测试这个感觉有点像黑客您的方
如何从没有结尾的管道中读取 python 中的 stdin

当管道来自打开时不知道正确的名称我无法从 python 中的标准输入或管道读取数据文件我有作为例子管道测试 py import sys import time k 0 try for line in sys stdin k k
从 Python 中的类元信息对 __init__ 函数进行类型提示

我想做的是复制什么SQLAlchemy确实以其DeclarativeMeta班级有了这段代码 from sqlalchemy import Column Integer String from sqlalchemy ext declar
在python中，如何仅搜索所选子字符串之前的一个单词

给定文本文件中的长行列表我只想返回紧邻其前面的子字符串例如单词狗描述狗的单词例如假设有这些行包含狗 hotdog big dog is dogged dog spy with my dog brown dogs 在这种情况下期望
使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

我有一个 Pandas 数据框它有两列一列进程参数列包含字符串另一列值列包含相应的浮点值我需要过滤出部分匹配列过程参数中的一组键的子数据帧并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce
您可以在 Python 类型注释中指定方差吗？

你能发现下面代码中的错误吗米皮不能 from typing import Dict Any def add items d Dict str Any gt None d foo 5 d Dict str str add items d f

随机推荐

【Linux】常用的 Linux 命令行

目录写在前面一查看信息指令 1 df 查看磁盘驱动器的可用空间 2 free 显示可用内存二常用操作指令 1 pwd 查看当前目录 2 cd 改变目录 3 ls 列出目录内容 4 file 确定文件类型 5 切换 root 普通用
【LeetCode与《代码随想录》】数组篇：做题笔记与总结-Java版

代码随想录地址是学习过程中的笔记图来自代码随想录文章目录理论题目 704 二分查找 35 搜索插入位置 34 在排序数组中查找元素的第一个和最后一个位置 69 x 的平方根 367 有效的完全平方数理论数组是存放在连续内存空间
Nginx---进程锁的实现

http wang peng 1123 blog 163 com blog static 129821112201381311441180 在前面的源码分析中我们大致的介绍了一下nginx对负载均衡问题和惊群问题的解决方案在本次源码分析中
【C++】引用

1 引用的基本语法 2 引用注意事项 int b 错误 int b a 正确 3 引用做函数参数 int temp a a b b temp 4 引用做函数返回值出现问题 https www bilibili com video BV1e
微信小程序水平居中，和垂直居中

微信小程序水平居中和垂直居中 1 WXML信息展示
Windows文本编辑器——推荐、介绍与安装（1）

撰写时间 2023年4月11日目的介绍各种类型的文本编辑器阐述编辑器的优缺点并提供安装与使用方法前言文本编辑器是应用各种已有的编程语言进行软件开发的一种重要工具它能够帮助开发者更加高效地编写代码也能够帮助电脑小白快速上手各种
Qt Model View TreeView及对应Model

点击上方蓝字可直接关注方便下次阅读如果对你有帮助可以点个在看让它可以帮助到更多老铁一概述接着之前的话题继续如果把之前的QTableView改成QTreeView 我们在不改变Model的情况下可以直接得到一个没有结构层次的
Linux KVM 使用教程（一）

文章目录 1 KVM简介 2 KVM 的功能列表 3 KVM 工具集合 3 1 Virsh命令 1 KVM简介 1 KVM 全称是基于内核的虚拟机 Kernel based Virtual Machine 它是Linux 的一个内核模块
python2(基本)

实验02 基本一课内实验题共10小题 100分题型得分 100 描述编写程序从键盘输入两个整数计算并输出这两个整数的和平均值最小值和最大值平均值保留2位小数输入分行输入两个整数输出分行输出两个整数的和平均值最
JDK1.8 下载与安装

JDK安装 JDK1 8下载下载链接 https www oracle com java technologies javase javase jdk8 downloads html 根据操作系统版本下载这里以win10 64位操作系统
驱动程序里ioctl下switch问题

今天在写步进电机驱动程序时 switch语句引出3个分支 case 0 case 1 case 2 case 0 什么都不做 case 1让步进电机正向转动 case 2让步进电机反向转动但是测试时 case 2怎么也动不起来后来把ca
PLSQL Developer的配置方法

1 下载32位的版本instantclient basic nt 11 2 0 3 0 zip 因为PLSQLDev是32位的没有64位的版本这个和操作系统无关 2 instantclient下载完后是一个压缩文件不需要安装配置一
服务器系统如何清理,服务器清理内存怎么清理

服务器清理内存怎么清理内容精选换一换本节操作指导您完成Windows操作系统云服务器磁盘空间清理弹性云服务器匀出一部分磁盘空间来充当内存使用当内存耗尽时云服务器可以使用虚拟内存来缓解内存的紧张但当内存使用率已经非常高时频繁的
关于HTTP协议，一篇就够了

HTTP简介 HTTP协议是Hyper Text Transfer Protocol 超文本传输协议的缩写是用于从万维网 WWW World Wide Web 服务器传输超文本到本地浏览器的传送协议 HTTP是一个基于TCP IP通信协
TCP 连接管理机制(一)——TCP三次握手详解 + 为什么要有三次握手

TCP是面向连接的协议在通信之前需要先建立连接其本质就是打开一个socket文件这个文件有自己的缓冲区如果要发送数据上层把数据拷贝到发送缓冲区如果是接收数据 OS直接把来自网络的数据拷贝到接收缓冲区里那么三次握手期间 Serv
youversion.com的圣经无法使用、无法连接、无法下载离线版本的解决方法

最近 youversion com的圣经无法使用无法连接无法下载离线版本了这是一部很好用的圣经软件以前一直用着后来ipad越狱重新安装的时候就不能连接了后来无意间发现原来是这个网站被和谐了至于GCD为什么这么做以咱的智商尚不
接口自动化测试须知

一做接口测试需要哪些技能做接口测试需要的技能基本就是以下几点业务流了解系统及内部各个组件之间的业务逻辑交互数据流了解接口的I O input output 输入输出协议包括http协议 TCP IP协议族 http协议
CMD查杀端口的两种方式

第一种 netstat ano windows r输入cmd并打开输入netstat ano 记住对应的6052 输入杀掉端口 taskkill pid 6052 f 第二种 netstat aon findstr 8080 直接输入ne
Win10 + VS2017 + Ceres配置

前言 Ceres是google出品的一款基于C 的开源非线性优化库官方文档 Ceres官方文档地址依赖库 Eigen 官网 glog github gflags github Ceres github 配置过程 1 Eigen Eige
Python3 爬虫 requests+BeautifulSoup4(BS4) 爬取小说网站数据

刚学Python爬虫不久迫不及待的找了一个网站练手新笔趣阁一个小说网站前提准备安装Python以及必要的模块 requests bs4 不了解requests和bs4的同学可以去官网看个大概之后再回来看教程爬虫思路刚开始写爬虫