python爬虫---用数据解析bs4爬取整部三国演义（不用诗词名句网）

2023-10-26

python爬虫—用数据解析bs4爬取整部三国演义（不用诗词名句网）

需求：使用bs4实现将三国演义小说的每一章的内容爬取到本地磁盘进行存储

诗词名句网无法进去，所以我自己找了个网站爬取，思路差不多。

首先，对首页的页面数据进行爬取

url = 'http://sanguo.5000yan.com/baihuawen/'
headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
    }
page_text=requests.get(url=url,headers=headers).text

请注意这里的headers，就是UA伪装
在这里插入图片描述
然后开始解析这个标题

 	soup=BeautifulSoup(page_text,'lxml')
    #解析章节标题
    li_list=soup.select('.list > ul > li > a')
    #print(li_list)
    fp = open('./sanguo.txt','w',encoding='utf-8')#为后续存储到本地磁盘做准备
    for a in li_list:
        title=a.string
        detail_url ='http://sanguo.5000yan.com/' + a['href']
         #对详情页发起请求，解析出章节内容
        detail_page_text = requests.get(url=detail_url,headers=headers).text

在这里插入图片描述为什么soup.select(’.list > ul > li > a’)可见图中所画，
同时我们会得到新的url，即detail_url =‘http://sanguo.5000yan.com/’ + a[‘href’]
然后我们解析出每章的内容，

		detail_soup = BeautifulSoup(detail_page_text,'lxml')
        div_tag = detail_soup.find('div',class_='grap')
        #解析到了章节的内容
        content = div_tag.text

在这里插入图片描述

最后存储到本地磁盘中

 		fp.write(title+':'+content+'\n')
        print(title,'爬取成功')

如果就这样结束，你们爬取出来的代码会是乱码的，这里需要在响应数据下面加上以下两段代码：

page_text=page_text.encode("ISO-8859-1")
page_text=page_text.decode('utf-8')

完整的代码如下：

import lxml
import requests
from bs4 import BeautifulSoup
if __name__=='__main__':
    #对首页的页面数据进行爬取
    url = 'http://sanguo.5000yan.com/baihuawen/'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
    }
    page_text=requests.get(url=url,headers=headers).text
    page_text=page_text.encode("ISO-8859-1")
    page_text=page_text.decode('utf-8')
    #在首页中解析出章节的标题和详情页的url
    #实例化BeautifulSoup对象，需要将页面源码数据加载到该对象中
    soup=BeautifulSoup(page_text,'lxml')
    #解析章节标题
    li_list=soup.select('.list > ul > li > a')
    #print(li_list)
    fp = open('./sanguo.txt','w',encoding='utf-8')
    for a in li_list:
        title=a.string
        detail_url ='http://sanguo.5000yan.com/' + a['href']
        #对详情页发起请求，解析出章节内容
        detail_page_text = requests.get(url=detail_url,headers=headers).text
        detail_page_text=detail_page_text.encode("ISO-8859-1")
        detail_page_text=detail_page_text.decode('utf-8')
        #解析出详情页中相关的章节内容
        detail_soup = BeautifulSoup(detail_page_text,'lxml')
        div_tag = detail_soup.find('div',class_='grap')
        #解析到了章节的内容
        content = div_tag.text
        fp.write(title+':'+content+'\n')
        print(title,'爬取成功')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python爬虫---用数据解析bs4爬取整部三国演义（不用诗词名句网）的相关文章

Python、Tkinter、更改标签颜色

有没有一种简单的方法来更改按钮中文本的颜色 I use button text input text here 更改按下后按钮文本的内容是否存在类似的颜色变化 button color red Use the foreground设置按钮
Python PAM 模块的安全问题？

我有兴趣编写一个 PAM 模块该模块将利用流行的 Unix 登录身份验证机制我过去的大部分编程经验都是使用 Python 进行的并且我正在交互的系统已经有一个 Python API 我用谷歌搜索发现pam python http pa
如何使用固定的 pandas 数据框进行动态 matplotlib 绘图？

我有一个名为的数据框benchmark returns and strategy returns 两者具有相同的时间跨度我想找到一种方法以漂亮的动画风格绘制数据点以便它显示逐渐加载的所有点我知道有一个matplotlib animat
如何收集列表、字典等中重复计算的结果（或制作修改每个元素的列表的副本）？

There are a great many existing Q A on Stack Overflow on this general theme but they are all either poor quality typical
如何在android上的python kivy中关闭应用程序后使服务继续工作

我希望我的服务在关闭应用程序后继续工作但我做不到我听说我应该使用startForeground 但如何在Python中做到这一点呢应用程序代码 from kivy app import App from kivy uix floatl
导入错误：没有名为 _ssl 的模块

带 Python 2 7 的 Ubuntu Maverick 我不知道如何解决以下导入错误 gt gt gt import ssl Traceback most recent call last File
Python 多处理示例不起作用

我正在尝试学习如何使用multiprocessing但我无法让它发挥作用这是代码文档 http docs python org 2 library multiprocessing html from multiprocessing imp
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
如何使用装饰器禁用某些功能的中间件？

我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
在循环中每次迭代开始时将变量重新分配给原始值（在循环之前定义）

在Python中你使用在每次迭代开始时将变量重新分配给原始值在循环之前定义时也就是说 original 1D o o o for i in range 0 3 new original 1D revert back to orig
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
在pyyaml中表示具有相同基类的不同类的实例

我有一些单元测试集希望将每个测试运行的结果存储为 YAML 文件以供进一步分析 YAML 格式的转储数据在几个方面满足我的需求但测试属于不同的套装结果有不同的父类这是我所拥有的示例 gt gt gt rz shorthand for
python 集合可以包含的值的数量是否有限制？

我正在尝试使用 python 设置作为 mysql 表中 ids 的过滤器 python集存储了所有要过滤的id 现在大约有30000个这个数字会随着时间的推移慢慢增长我担心python集的最大容量它可以包含的元素数量有限制吗您最大
HTTPS 代理不适用于 Python 的 requests 模块

我对 Python 还很陌生我一直在使用他们的 requests 模块作为 PHP 的 cURL 库的替代品我的代码如下 import requests import json import os import urllib impor
ExpectedFailure 被计为错误而不是通过

我在用着expectedFailure因为有一个我想记录的错误我现在无法修复但想将来再回来解决我的理解expectedFailure是它会将测试计为通过但在摘要中表示预期失败的数量为 x 类似于它如何处理跳过的 tets 但是当我
Python - 按月对日期进行分组

这是一个简单的问题起初我认为很简单而忽略了它一个小时过去了我不太确定所以我有一个Python列表datetime对象我想用图表来表示它们 x 值是年份和月份 y 值是此列表中本月发生的日期对象的数量也许一个例子可以更好地证明这
如何改变Python中特定打印字母的颜色？

我正在尝试做一个简短的测验并且想将错误答案显示为红色欢迎来到我的测验您想开始吗是的祝你好运法国的首都是哪里法国随机答案不正确的答案我正在尝试将其显示为红色我的代码是 print Welcome to my Quiz be
从 pygame 获取 numpy 数组

我想通过 python 访问我的网络摄像头不幸的是由于网络摄像头的原因 openCV 无法工作 Pygame camera 使用以下代码就像魅力一样 from pygame import camera display camera in
在 Pandas DataFrame Python 中添加新列[重复]

这个问题在这里已经有答案了例如我在 Pandas 中有数据框 Col1 Col2 A 1 B 2 C 3 现在如果我想再添加一个名为 Col3 的列并且该值基于 Col2 式中如果Col2 gt 1 则Col3为0 否则为1 所以
在python中，如何仅搜索所选子字符串之前的一个单词

给定文本文件中的长行列表我只想返回紧邻其前面的子字符串例如单词狗描述狗的单词例如假设有这些行包含狗 hotdog big dog is dogged dog spy with my dog brown dogs 在这种情况下期望

随机推荐

python/元组、列表、字典

Python 的元组与列表类似不同之处在于元组的元素不能修改元组使用小括号列表使用方括号字典使用下面用一个实例来体验一下 s list input r 创建一个字典 for i in s r i r get i 0 1 看下文解释
引爆点--读书有感

有个理念一直在我心里都说流行都是轮回如何去让产品抓住流行趋势究竟是什么造就了流行如何去学习看看周围的世界吧它看上去似乎雷打不动无法改变但只要你找准位置轻轻一触它就可能倾斜书籍理念个别人物法则附着力因素法则和环境威力
单片机控制直流电机(风扇)电路详解

单片机引脚为什么无法直接控制电机或风扇我们在使用单片机去控制 5V的直流电机或者散热风扇时可能会有一种疑惑 51单片机的引脚电压为 5V 为什么不直接用单片机引脚去驱动电机或者风扇实际上单片机的控制引脚不管是51单片机或者stm32
Linux安装python显示“软件包python没有可安装候选”

在Linux中安装python时调用 sudo apt get install python 命令出现以下问题 sudo apt get install python sudo lyx 的密码正在读取软件包列表完成正在分析软件包的依
java中public/private/protected的具体区别

java中public private protected的具体区别 public public表明该数据成员成员函数是对所有用户开放的所有用户都可以直接进行调用 private private表示私有私有的意思就是除了class自己
深度学习——更深层次的神经网络

一个深层次的CNN网络结构这里使用的卷积层全都是3 3的小型滤波器特点是随着层的加深通道数变大卷积层的通道数从前面的层开始按顺序以16 16 32 32 64 64的方式增加此外插入了池化层以逐渐减小中间数据的空间大小并且
C++ 字符串

C 提供了以下两种类型的字符串表示形式 C 风格字符串 C 引入的 string 类类型 C 风格字符串 C 风格的字符串起源于 C 语言并在 C 中继续得到支持字符串实际上是使用 null 字符 0 终止的一维字符数组因此一个以
OpenMV的单颜色识别讲解

OpenMV的官方教程寻找色块 single color rgb565 blob tracking示例讲解视频讲解需要提前看的文章程序烧录颜色阈值设置目录 threshold index和thresholds解析固定代码部分
Vue记住滚动条位置 scrollBehavior + debounce

Vue记住滚动条位置 1 先给占位符加一层缓存 2 在路由上加一个源信息meta 记录滚动条的top值 3 使用 scrollBehavior 4 给页面添加事件监听使用前端路由当切换到新路由时想要页面滚到顶部或者是保持原先的滚动位
浅谈 js运行机制、宏观任务、微观任务

今天我们谈一下我对js 运行机制和宏观任务微观任务的理解 js运行机制有同步运行和异步运行 js是单线程运行模式在进入任务当中如果是同步任务那么就直接被主线程运行如果是异步任务那么就进入任务队列中进行等待运行直到主线程任务执行完
二叉树基础

文章目录一树的基础 1 树的概念 2 非树 3 树的相关概念 image 20220402143804166 https img blog csdnimg cn img convert a8bbb6f8483be3ca9edd9e354
虚假人脸检测实验

虚假人脸检测实验虚假人脸识别数据集链接链接 https pan baidu com s 1ZY7 PqPGsxCBFerpfRW13Q pwd 0w2r 或者https download csdn net download weixi
关于Windows Mobile手机视听电脑视音频的程序实现（一）

心情不好突然想写博客了嘿嘿其实这一个程序是差不多一年前实现的那时正好着手一个项目同时后来也因为这一个项目买了一款多普达手机呵呵这一个项目大概实现这么一个功能电脑服务器端安装一个用于抓取摄像头与麦克风的数据 Windows
Qt元对象系统

元对象系统 Meta Object System 元对象系统是一个基于标准C 的扩展为Qt提供了信号与槽机制实时类型信息动态属性系统元对象系统的三个基本条件类必须继承自QObject 类声明Q OBJECT宏默认私有有元对象编
如何解决幻读？

一什么是幻读幻读一个事务按相同的查询条件重新读取以前的检索过的数据却发现其他事务插入了满足其条件查询的新数据这种现象被成为幻读进行了读取分别读取了不同的数据重点在于新增 insert 针对多笔数据举个例子事务A对数据进行
python机器人编程——无人机python联动控制实现（VREP仿真）1——手搓一个类ROS机器人消息订阅发布模块

目录一前言二总体设想三系统的组成四 python代码构建构建一个MessageBroker消息代理类以下这个是常规的MessageBroker类以下这个是引入协程的MessageBroker类下面是使用MessageB
uni-app插件使用注意事项

1 将插件设置为全局组件后需要将项目重新运行 2 有些插件的功能会互斥不要贪多全部装上按需安装即可
QT中QMap使用实例详解

QMap QMultiMap属于关联式容器其底层结构是通过二叉树实现故其查找value的效率很快 QMap中的数据都是成对出现的第一个称为key 键第二个称value 键值目录实例化QMap对象插入数据移除数据遍历数据由
siege压力测试工具安装和介绍

前言最近公司有个项目需要做一个短轮询类推送服务器推送服务器分为三种短轮询长轮询长连接用户量不大但是为了保险起见还是做一下压力测试用的工具是siege 目录前言目录 siege介绍 siege安装 siege使用 1 si
python爬虫---用数据解析bs4爬取整部三国演义（不用诗词名句网）

python爬虫用数据解析bs4爬取整部三国演义不用诗词名句网需求使用bs4实现将三国演义小说的每一章的内容爬取到本地磁盘进行存储诗词名句网无法进去所以我自己找了个网站爬取思路差不多首先对首页的页面数据进行爬取 url h

python爬虫---用数据解析bs4爬取整部三国演义（不用诗词名句网）

python爬虫---用数据解析bs4爬取整部三国演义（不用诗词名句网） 的相关文章

随机推荐

热门标签

python爬虫---用数据解析bs4爬取整部三国演义（不用诗词名句网）的相关文章