Python爬虫三国演义

2023-11-17

爬取三国全篇内容

定位目标：https://www.shicimingju.com/book/sanguoyanyi.html

在这里插入代码片import requests
from bs4 import BeautifulSoup
f=open('./sanguo.txt','w',encoding='utf-8')#文件保存在当前文件夹中
headers={
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36"
}
url="https://www.shicimingju.com/book/sanguoyanyi.html"
page_text=requests.get(url=url,headers=headers).text
#数据解析，标题，详情页的url，章节内容
soup=BeautifulSoup(page_text,'lxml')  #实例化soup对象
#可以通过层级选择器定位
a_list=soup.select('.book-mulu>ul>li>a')

for a in a_list:
    title=a.string
    detail_url='https://www.shicimingju.com'+a['href']
    #对详情页发出url请求，解析出章节内容
    page_text_detail=requests.get(url=detail_url,headers=headers).text
   #注意不能使用上面已经实例化好的soup解析,需要重新实例化新的页面的soup
    soup=BeautifulSoup(page_text_detail,'lxml')
#     detail_list=soup.select('.chapter_content>p')
#     print(detail_list)
    div_tag=soup.find('div',class_='chapter_content')
    content=div_tag.text
    f.write(title+":"+content+"\n")
    print(title+" 下载成功！！")
f.close()

运行结果如下：
第一回·宴桃园豪杰三结义斩黄巾英雄首立功下载成功！！
第二回·张翼德怒鞭督邮何国舅谋诛宦竖下载成功！！
第三回·议温明董卓叱丁原馈金珠李肃说吕布下载成功！！
第四回·废汉帝陈留践位谋董贼孟德献刀下载成功！！
第五回·发矫诏诸镇应曹公破关兵三英战吕布下载成功！！
第六回·焚金阙董卓行凶匿玉玺孙坚背约下载成功！！
…
此时，sanguo.txt中就有如下内容

第一回·宴桃园豪杰三结义斩黄巾英雄首立功:

滚滚长江东逝水，浪花淘尽英雄。是非成败转头空。青山依旧在，几度夕阳红。    白发渔樵江渚上，惯看秋月春风。一壶浊酒喜相逢。古今多少事，都付笑谈中。
——调寄《临江仙》 
........

运行过程还可能会出现以下错误：

ConnectionError: HTTPSConnectionPool(host=‘www.shicimingju.com’,
port=443): Max retries exceeded with url: /book/sanguoyanyi/44.html
(Caused by NewConnectionError(’<urllib3.connection.HTTPSConnection
object at 0x000001D2E2393BC8>: Failed to establish a new connection:
[WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败。’))

总之，使用Python使用不到30行的代码就可以爬取一些小说资源了！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python爬虫三国演义的相关文章

Python BigQuery 存储。并行读取多个流

我有以下玩具代码 import pandas as pd from google cloud import bigquery storage v1beta1 import os import google auth os environ G
下载 PyQt6 的 Qt Designer 并使用 pyuic6 将 .ui 文件转换为 .py 文件

如何下载 PyQt6 的 QtDesigner 如果没有适用于 PyQt6 的 QtDesigner 我也可以使用 PyQt5 的 QtDesigner 但是如何将此 ui 文件转换为使用 PyQt6 库而不是 PyQt5 的 py 文件
如何在python中读取多个文件中的文本

我的文件夹中有许多文本文件大约有 3000 个文件每个文件中第 193 行是唯一包含重要信息的行我如何使用 python 将所有这些文件读入 1 个文本文件 os 模块中有一个名为 list dir 的函数该函数返回给定目录中所有文
Python、Tkinter、更改标签颜色

有没有一种简单的方法来更改按钮中文本的颜色 I use button text input text here 更改按下后按钮文本的内容是否存在类似的颜色变化 button color red Use the foreground设置按钮
如何在android上的python kivy中关闭应用程序后使服务继续工作

我希望我的服务在关闭应用程序后继续工作但我做不到我听说我应该使用startForeground 但如何在Python中做到这一点呢应用程序代码 from kivy app import App from kivy uix floatl
如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
如何使用包含代码的“asyncio.sleep()”进行单元测试？

我在编写 asyncio sleep 包含的单元测试时遇到问题我要等待实际的睡眠时间吗 I used freezegun到嘲笑时间当我尝试使用普通可调用对象运行测试时这个库非常有用但我找不到运行包含 asyncio sleep 的测
SQL Alchemy 中的 NULL 安全不等式比较？

目前我知道如何表达 NULL 安全的唯一方法 SQL Alchemy 中的比较其中与 NULL 条目的比较计算结果为 True 而不是 NULL 是 or field None field value 有没有办法在 SQL Alchem
Python tcl 未正确安装

我刚刚为 python 安装了graphics py 但是当我尝试运行以下代码时 from graphics import def main win GraphWin My Circle 100 100 c Circle Point 50
从 scikit-learn 导入 make_blobs [重复]

这个问题在这里已经有答案了我收到下一个警告 D Programming Python ML venv lib site packages sklearn utils deprecation py 77 DeprecationWarning
在 NumPy 中获取 ndarray 的索引和值

我有一个 ndarrayA任意维数N 我想创建一个数组B元组数组或列表其中第一个N每个元组中的元素是索引最后一个元素是该索引的值A 例如 A array 1 2 3 4 5 6 Then B 0 0 1 0 1 2 0 2 3 1 0
feedparser 在脚本运行期间失败，但无法在交互式 python 控制台中重现

当我运行 eclipse 或在 iPython 中运行脚本时它失败了 ascii codec can t decode byte 0xe2 in position 32 ordinal not in range 128 我不知道为什么但
python pandas 中的双端队列

我正在使用Python的deque 实现一个简单的循环缓冲区 from collections import deque import numpy as np test sequence np array range 100 2 resha
如何将 numpy.matrix 提高到非整数幂？

The 运算符为numpy matrix不支持非整数幂 gt gt gt m matrix 1 0 0 5 0 5 gt gt gt m 2 5 TypeError exponent must be an integer 我想要的是 oct
为美国东部以外地区的 Cloudwatch 警报发送短信？

AWS 似乎没有为美国东部以外的 SNS 主题订阅者提供 SMS 作为协议我想连接我的 CloudWatch 警报并在发生故障时接收短信但无法将其发送到 SMS YES 经过一番挖掘后我能够让它发挥作用它比仅仅选择一个主题或输入闹钟
在Python中重置生成器对象

我有一个由多个yield 返回的生成器对象准备调用该生成器是相当耗时的操作这就是为什么我想多次重复使用生成器 y FunctionWithYield for x in y print x here must be something t
设置 torch.gather(...) 调用的结果

我有一个形状为 n x m 的 2D pytorch 张量我想使用索引列表来索引第二个维度可以使用 torch gather 完成然后然后还设置新值到索引的结果 Example data torch tensor 0 1 2 3 4
在 Pandas DataFrame Python 中添加新列[重复]

这个问题在这里已经有答案了例如我在 Pandas 中有数据框 Col1 Col2 A 1 B 2 C 3 现在如果我想再添加一个名为 Col3 的列并且该值基于 Col2 式中如果Col2 gt 1 则Col3为0 否则为1 所以
从 Python 中的类元信息对 __init__ 函数进行类型提示

我想做的是复制什么SQLAlchemy确实以其DeclarativeMeta班级有了这段代码 from sqlalchemy import Column Integer String from sqlalchemy ext declar
PyAudio ErrNo 输入溢出 -9981

我遇到了与用户相同的错误 Python 使用 Pyaudio 以 16000Hz 录制音频时出错 https stackoverflow com questions 12994981 python error audio recording

随机推荐

iframe的替代品

面试题使用过iframe框架那你对于iframe框架的优缺点知道多少并且由于iframe的一些缺点国内外针对这个框架的替代品你知道有哪些呢知识点1 iframe框架的优缺点优点 1 可以跨域请求其他网站并将网站完整展示出来 2
[课程复习] 数据结构之线性表、树、图、查找、排序经典算法复习

作者最近在复习考博乘此机会分享一些计算机科学与技术软件工程等相关专业课程考题一方面分享给考研考博找工作的博友另一方面也是自己今后完成这些课程的复习资料同时也是在线笔记基础知识希望对您有所帮助不喜勿喷无知乐观低调谦
【Qt Modbus通信】QModbus实现modbus的主机功能源码分享

前言 modbus在上下位机数据交互时被广泛使用因此写了这篇笔记和大家一起学习 Qt Modbus通信 libmodbus实现modbus的主机功能从机功能源码分享之前使用libmodbus实现了modbus的主从功能但发现主机查
docker frp 搭建内网穿透

docker frp 搭建内网穿透可运行的云服务器 docker pull snowdreamtech frps mkdir p root docker frp cd root docker frp touch frps ini comm
企业微信如何简单实现定时发送文件到群：企业微信群机器人操作（Java代码实现）

前言不知道小伙伴们的公司组织架构通勤用的啥软件我公司用的企业微信然后业务销售部那边需要每天统计销售数据报表然后发在群里我是开发我不配在群里知道这个背景以后产品给我们的需求是直接统计数据按照业务那边的报表模板直接生成销售报表
ARM-A架构入门基础（三）MMU

14天学习训练营导师课程周贺贺 ARMv8 ARMv9架构快速入门 1 MMU Memory Management Unit 内存管理单元 MMU的意义在于将软件程序的虚拟地址转换为真实的物理地址 2 MMU种类 Secure EL1
数据结构——图解循环队列长度计算问题

队列定义是这样的 define MAXSIZE 10 typedef struct ElemType data MAXSIZE int front rear SeqQueue 一个队列一个存放元素的数组一个队头指针一个队尾指针 fro
np.array与list的内存大小比较

1 np array与list 比较 a 1 2 3 4 需要4个指针和四个数据增加了存储和消耗cpu a np array 1 2 3 4 只需要存放四个数据读取和计算更加方便 2 np array与list所占内存 def test
sqlserver语言转mysql_SQLSERVER 脚本转MYSQL 脚本的方法总结

标签 1 MYSQL中SQL脚步都要以分号结尾这点比SQLSERVER要严谨 2 所有关键字都要加上比如 Status 替换成 Status 按是有个的键 3 SQLSERVER的dbo 在mysql中不支持都要去掉 4 isnu
java field static_Java基础之关键字static

static是Java中的一个关键字用来修饰成员变量与成员方法还可以用于编写静态代码块对于被static修饰的东西 JVM在加载类的时候就给这些变量在内存中分配了一定的空间即在编译阶段时就为这些成员变量的实例分配了空间一静态变
机器学习入门之流浪地球

机器学习入门之流浪地球 1 引言 2 问题描述 3 问题分析 4 问题求解 4 1 数据集 4 2 模型构造 4 3 损失函数 4 4 梯度下降 4 5 模型训练 4 6 预测 4 7 完整实现代码 5 总结与思考 1 引言我国里程碑式科
求n边形周长的k等分点坐标（今日头条）

题目本题来自今天头条的笔试有一个n边形 P0 P1 Pn 每一条边皆为垂直或水平线段现给定数值k 以P0为起点将n边形的周长分为k段每段的长度相等请打印出k等分点的坐标 T0 T1 Tk 的坐标分析 1 可以计算出从第0个点到
线程池ExecutorService

1 线程池创建方式 1 通过Executors创建线程池 import java util concurrent ExecutorService import java util concurrent Executors public cl
Ubuntu18.04未安装Qt报qt.qpa.plugin could not load the Qt platform plugin xcb问题的解决方法

在Ubuntu 18 04开发机上安装了Qt 5 14 2 当将其可执行程序拷贝到另一台未安装Qt的Ubuntu 18 04上报错拷贝可执行程序前使用ldd将此执行程序依赖的动态库也一起拷贝过去包括Qt5 14 2 5 14 2 gc
JS ES6 单链表2种插入尾部方式

一种是类里加一个指向尾部最后一个元素指针通过他添加一个元素到队列最后一种是每次增一个元素都从头开始遍历直到最后一个然后添加打开出来有单链表结构是一样的除了上面的多了一个队尾指针 class Node 单个结点 data next
Cadence 生成gerber文件，嘉立创下单助手解析不了PCB板的问题

概述最近由于公司的原因使用Cadence EDA工具绘制一块 TMC2300电机驱动板遇到一些问题在这记录一下坑也方便遇到这个问题的硬件攻城狮得到解决 1 EDA Cadence 17 4 在生成gerber文件时使用CAM35
type_traits技术与C++

引言一个方法实现过程中业务逻辑很多都是相似的但是与具体的特化类型的不同有一定的差异这个时候可以采用特化模板的方式实现不同的类型使用不同的特化实现但是这种情况造成一定的业务逻辑的冗余而trait技术可以将特化类型通过封装以一个
windows10进行Colmap配置

colmap下载 https demuc de colmap 新的colmap按照官网的编译方式仅需要预装好CMake Boost QT5 CUDA和CGAL 1 CMake CMake安装最简单去官网下载好压缩包解压即可建议下载新版
使用sentencepiece模型替换词表

最近在用DeBERTa模型跑一些下游任务了解到了sentencepiece模型用于替代预训练模型中的词表 sentencepiece 是google开源的文本Tokenzier工具本身提供四种切分方法包括 char word byt
Python爬虫三国演义

爬取三国全篇内容定位目标 https www shicimingju com book sanguoyanyi html 在这里插入代码片import requests from bs4 import BeautifulSoup f op

Python爬虫三国演义

爬取三国全篇内容

Python爬虫三国演义 的相关文章

随机推荐

热门标签

Python爬虫三国演义的相关文章