python request 爬虫爬取起点中文网小说

2023-11-16

1.网页分析。进入https://www.qidian.com/，点击全部，进行翻页，你就会发现一个规律，

url=https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page=0（1,2,3，……）

那么我么可以这样写

url = https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page='+str(start)+'


if __name__=='__main__':
    for i in range(1,6):
     gethtml(start=i*1)

2.获取小说列表页面源码。

import requests
from lxml import etree
import os
def gethtml(start):
    url = 'https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page='+str(start)+''
    html = requests.get(url)
    page = etree.HTML(html.text)
    titlelist = page.xpath('//div[@class="book-mid-info"]/h4/a/text()')
    titlelinklist = page.xpath('//div[@class="book-mid-info"]/h4/a/@href')
    for title,titlelink in zip(titlelist,titlelinklist):
        if os.path.exists(title) == False:  # 如果以该小说名为名字的文件夹不存在
            os.mkdir(title)  # 则新建以该小说名为名的文件夹
        get_son_html(title,titlelink)

3.获取小说页面源码。

def get_son_html(title,titlelink):
    html = requests.get('https:'+titlelink)
    page = etree.HTML(html.text)
    son_titlelist = page.xpath('//ul[@class="cf"]/li/a/text()')
    son_linklist = page.xpath('//ul[@class="cf"]/li/a/@href')
    for son_title,son_link in zip(son_titlelist,son_linklist):
        save(son_title,son_link,title)

4.获取小说内容也源码并保存。

def save(son_title,son_link,title):
    html = requests.get('https:'+son_link)
    page = etree.HTML(html.text)
    content = '\n'.join(page.xpath('//div[@class="read-content j_readContent"]/p/text()'))
    filename = title + '\\' +son_title + '.txt'  #小说名，先存在小说文件夹中，再以章节取名，存为.txt文件
    print('正在保存小说……',filename)
    open(filename,'w',encoding='utf-8').write(content)

5.完整代码。

import requests
from lxml import etree
import os
def gethtml(start):
    url = 'https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page='+str(start)+''
    html = requests.get(url)
    page = etree.HTML(html.text)
    titlelist = page.xpath('//div[@class="book-mid-info"]/h4/a/text()')
    titlelinklist = page.xpath('//div[@class="book-mid-info"]/h4/a/@href')
    for title,titlelink in zip(titlelist,titlelinklist):
        if os.path.exists(title) == False:  # 如果以该小说名为名字的文件夹不存在
            os.mkdir(title)  # 则新建以该小说名为名的文件夹
        get_son_html(title,titlelink)

def get_son_html(title,titlelink):
    html = requests.get('https:'+titlelink)
    page = etree.HTML(html.text)
    son_titlelist = page.xpath('//ul[@class="cf"]/li/a/text()')
    son_linklist = page.xpath('//ul[@class="cf"]/li/a/@href')
    for son_title,son_link in zip(son_titlelist,son_linklist):
        save(son_title,son_link,title)

def save(son_title,son_link,title):
    html = requests.get('https:'+son_link)
    page = etree.HTML(html.text)
    content = '\n'.join(page.xpath('//div[@class="read-content j_readContent"]/p/text()'))
    filename = title + '\\' +son_title + '.txt'  #小说名，先存在小说文件夹中，再以章节取名，存为.txt文件
    print('正在保存小说……',filename)
    open(filename,'w',encoding='utf-8').write(content)

if __name__=='__main__':
    for i in range(1,6): #爬取5页
     gethtml(start=i*1)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

原创

python

爬虫

python request 爬虫爬取起点中文网小说的相关文章

为什么我不能使用“exclude”从 python 轮子中排除“tests”目录？

考虑以下包结构与以下setup py内容 from setuptools import setup find packages setup name dfl client packages find packages exclude te
Python Nose 导入错误

我似乎无法理解鼻子测试框架 https nose readthedocs org en latest 识别文件结构中测试脚本下方的模块我已经设置了演示该问题的最简单的示例下面我会解释一下这是包文件结构 init py foo py t
编辑 scikit-learn 决策树

我想编辑 sklearn DecisionTree 例如改变条件或切割节点叶子等但似乎没有功能可以做到这一点如果我可以导出到文件编辑它以导入如何编辑决策树环境 Windows 10 python3 3 sklearn 0 17
为什么在 Windows 中使用 GetConsoleScreenBufferInfoEx 时控制台窗口会缩小？

我正在尝试使用 GetConsoleScreenBufferInfoEx 和 SetConsoleScreenBufferInfoEx 设置 Windows 命令行控制台的背景和前景色我正在 Python 中使用 wintypes 进行此
如何找到列表S的所有分区为k个子集（可以为空）？

我有一个唯一元素列表比方说 1 2 我想将其拆分为 k 2 个子列表现在我想要所有可能的子列表 1 2 1 2 2 1 1 2 我想分成 1 1 2 我怎样才能用 Python 3 做到这一点更新我的目标是获取 N 个唯一数字列表的
为什么我的scoped_session 引发 AttributeError: 'Session' object has no attribute 'remove'

我正在尝试建立一个系统将数据库操作优雅地推迟到单独的线程以避免在 Twisted 回调期间发生阻塞到目前为止这是我的方法 from contextlib import contextmanager from sqlalchemy i
使用 Scipy imsave 将 Numpy 数组保存到图像时保留未更改的数据

使用 Scipy 保存二维 Numpy 数组单个值时toimage or imsave像素值与 Numpy 数组中的像素值不完全匹配相反在某些区域主要是边缘图像算法似乎使用某种插值是否有一个选项可以停止插值并保留准确的数据例
在 Flask (WSGI) 中使用全局单例，我是否需要担心竞争条件？ [复制]

这个问题在这里已经有答案了 Flask 的 hello world 演示是 from flask import Flask app Flask name app route def hello return Hello World if n
Django - 电子邮件发送两次

每当我使用如下所示的电子邮件设置从views py调用下面的方法时电子邮件的两份副本都会发送给收件人并且我收到如下所示的错误 def sendEmailBasic request msg EmailMessage Request Cal
pip 安装软件包两次

不幸的是我无法重现它但我们已经见过几次了 pip 将一个软件包安装两次如果卸载第一个第二个就会可见并且也可以被卸载我的问题如果一个包安装了两次如何用 python 检查背景我想编写一个测试来检查这一点 devOp Updat
如何在 Python 中从 HTML 页面中提取 URL [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我必须用Python 编写一个网络爬
为什么“return self”返回 None ？ [复制]

这个问题在这里已经有答案了我正在尝试获取链的顶部节点getTopParent 当我打印出来时self name 它确实打印出了父实例的名称然而当我回来时self 它返回 None 为什么是这样 class A def init sel
从 IMDbPy 结果中的片目中获取电影 ID

我正在尝试创建一个数据集允许我根据 Python IMDb API 中的演员 ID 和电影 ID 加入演员和电影现在我正在尝试从演员的电影作品中提取电影 ID 列表但无法做到例如我知道 Rodney Dangerfield 在
如何强制 Y 轴仅使用整数

我正在使用 matplotlib pyplot 模块绘制直方图我想知道如何强制 y 轴标签仅显示整数例如 0 1 2 3 等而不显示小数例如 0 0 5 1 1 5 2 等我正在查看指导说明并怀疑答案就在附近matplotlib
大型数据集上的 Sklearn-GMM

我有一个很大的数据集我无法将整个数据放入内存中我想在这个数据集上拟合 GMM 我可以用吗GMM fit sklearn mixture GMM 重复小批量数据没有理由重复贴合只需随机采样您认为机器可以在合理时间内计算的尽可能多的数据
Jupyter Notebook：没有名为 pandas 的模块

我搜索了其他问题但没有找到任何有帮助的内容大多数只是建议您使用 conda 或 pip 安装 pandas 在我的 jupyter 笔记本中我试图导入 pandas import pandas as pd 但我收到以下错误 Modul
如何设置 matplotlib 表中列的背景颜色

我在一个目录中有多个 txt 文件例如 d memdump 0 txt 1 txt 10 txt 示例文本文件如下 Applications Memory Usage kB Uptime 7857410 Realtime 7857410
如何正确消除字典中的元素直到只剩下一个字符串

我真的需要这方面的帮助 def get winner dict winner new dict for winner in dict winner first letter winner 0 value dict winner winner
如何使用Featuretools按列值从单个数据框中的多个列创建特征？

我正在尝试根据之前的结果来预测足球比赛的结果我在 Windows 上运行 Python 3 6 并使用 Featuretools 0 4 1 假设我有以下代表结果历史记录的数据框原始数据框 https i stack imgur com
issubclass() 对从不同路径导入的同一类返回 False

目的是实现某种插件框架其中插件是同一基类即 A 的子类即 B 基类使用标准导入加载而子类使用 imp load module 从众所周知的包即 pkg 的路径加载 pkg init py mod1 py class A mod2

随机推荐

Java 单例类中的线程安全

Singleton 是最广泛使用的创建型设计模式之一用于限制应用程序创建的对象如果是在多线程环境中使用那么单例类的线程安全性就非常重要在现实应用程序中数据库连接或企业信息系统 EIS 等资源是有限的应明智地使用以避免任何资源紧缩
Fail2Ban 如何保护 Linux 服务器上的服务

介绍 SSH 是连接云服务器的事实上的方法它耐用且可扩展随着新的加密标准的开发它们可用于生成新的 SSH 密钥确保核心协议保持安全然而没有任何协议或软件堆栈是完全万无一失的 SSH 在互联网上如此广泛的部署意味着它代表了一种非常
如何在运行 Ubuntu 的 VPS 上安装和使用 Composer

Status 已弃用本文介绍不再受支持的 Ubuntu 版本如果您当前运行的服务器运行 Ubuntu 12 04 我们强烈建议您升级或迁移到受支持的 Ubuntu 版本升级到Ubuntu 14 04 从 Ubuntu 14 04 升级
如何在 Rocky Linux 9 上安装 Node.js

介绍 Node js是用于服务器端编程的 JavaScript 运行时它允许开发人员使用 JavaScript 创建可扩展的后端功能这是许多人在基于浏览器的 Web 开发中已经熟悉的语言在本指南中您将了解在 Rocky Linux
Java 堆空间与堆栈 - Java 中的内存分配

不久前我写了几篇关于Java 垃圾收集 and Java 是按值传递之后我收到了很多电子邮件来解释Java堆空间 Java堆栈内存 Java中的内存分配它们之间有什么区别您会在 Java Java EE 书籍和教程中看到很多对堆和堆栈内
Spring WebFlux - Spring 响应式编程

Spring WebFlux是Spring 5中引入的新模块 Spring WebFlux是Spring框架中向反应式编程模型迈出的第一步 Spring 响应式编程如果您是反应式编程模型的新手那么我强烈建议您阅读以下文章来了解反应式编程
如何在 Ubuntu 16.04 上设置 Apache 虚拟主机

介绍 Apache Web 服务器是在互联网上提供 Web 内容的最流行的方式它占互联网上所有活跃网站的一半以上并且非常强大和灵活 Apache 将其功能和组件分解为可以独立定制和配置的单独单元描述单个站点或域的基本单位称为virtu
Android 倒计时器示例

在这个 android 倒数计时器示例中我们将实现一个计时器对象来显示进度进度条我们将在本教程中构建的应用程序是测验应用程序中的一个有用组件其中以图形方式显示完成该级别的剩余时间以增强用户体验 Android 倒计时器 Androi
如何在 Ubuntu 18.04 上设置私有 Docker 注册表

作者选择了阿帕奇软件基金会接受捐赠作为为捐款而写程序介绍 Docker 注册表是一个管理存储和交付 Docker 容器镜像的应用程序注册表集中容器映像并减少开发人员的构建时间 Docker 镜像通过虚拟化保证相同的运行时环境但构建镜像
C 编程中的 fgets() 和 gets()

介绍我们都熟悉scanf 功能它是适用于获取基本用户输入的主要功能虽然scanf 在接受诸如以下输入时效果很好整数字符浮点数等等在获取包含空格的字符串输入时它肯定会落后让我们看一个例子 include
Spring Bean 范围

Spring Bean Scopes 允许我们更精细地控制 bean 实例的创建有时我们希望将 bean 实例创建为单例但在其他一些情况下我们可能希望在每次请求时或在会话中创建一次 Spring Bean 范围有五种类型春豆 sco
如何在 Ubuntu 20.04 上安装和使用 Docker

介绍 Docker是一个应用程序可简化管理应用程序进程的过程容器容器允许您在资源隔离的进程中运行应用程序它们与虚拟机类似但容器更便携更资源友好并且更依赖于主机操作系统有关 Docker 容器的不同组件的详细介绍请查看Dock
针对Spring/Gradle启动失败的一些通用解决方案

文章目录 0 前言 1 更改Gradle JVM的Java JDK 1 1 执行JUnit测试时 Gradle报错 0 前言当你对Spring Gradle启动失败的错误信息一筹莫展时不妨试试以下这些通用的解决方案 1 更改Gradle
SpringBoot在普通类获取Service或者DAO

1手动创建工具类 package com lhw locktest util import org springframework beans BeansException import org springframework contex
编程每日一题_C程序设计_零钱兑换

描述来源 MOOC C语言程序设计浙江大学翁老师有改编给定人民币整元数值如1元 5元 10元 100元将该币值的钱全部兑换为零钱一角两角五角且每次兑换每种面值的零钱均出现请给出兑换方案输出一种兑换方案代码1 in
设计模式---抽象工厂(AbstractFactory)模式

1 名词解释产品等级指产品的类型一样品牌不一样例如空调是一种产品类型美的空调与格力空调是不同的品牌产品族同一个品牌的不同产品例如美的的空调电饭锅热水器属于同一产品族这里引用一个图片来具体说明这两个名词解释来自引用2
超详细！腾讯NLP算法岗面经（已offer）

作者 ZipZou 整理 NewBeeNLP 面试锦囊之面经分享系列持续更新中可以后台回复面试加入交流讨论组噢写在前面首先来段简单的自我介绍 2021届硕士硕士期间未有实习经历本科大三有过一次实习小公司可以忽略本人投递
龙芯2k1000la之固态硬盘重新分区

当我们想为系统安装一些配置后发现我们想要安装到的磁盘分区满了时我们可以对固态硬盘进行重新分区如下以up重装系统时新系统压缩包太大无法在sda1解压为例当我将 dev sda1挂载到disk文件夹并想要解压新系统时提示该设备上已经没有
idea 注册码在线生成方式

已经有前辈搞了一个在线网站了直接生成即可的 http idea iteblog com
python request 爬虫爬取起点中文网小说

1 网页分析进入https www qidian com 点击全部进行翻页你就会发现一个规律 url https www qidian com all orderId style 1 pageSize 20 siteid 1 pubf

python request 爬虫爬取起点中文网小说

python request 爬虫爬取起点中文网小说 的相关文章

随机推荐

热门标签

python request 爬虫爬取起点中文网小说的相关文章