python爬虫——爬取快读小说app

2023-11-18

1. 爬取结果（csv文件，出现了有两个表头…不明所以，无关大雅）
阿瑟东
2. 使用fiddler4进行抓包
在这里插入图片描述

通过观察url，我们不难发现其中的规律，要实现进行分类抓取，需要更改url第一个数字，如下
https://sc.canrike.com/Categories/1/hot/1.html
https://sc.canrike.com/Categories/2/hot/1.html
要实现翻页需要更改url的最后一个数字，如下
https://sc.canrike.com/Categories/2/hot/1.html
https://sc.canrike.com/Categories/2/hot/2.html
要实现抓取某个分类中的分类（就是最热，最新，榜单，完结），需要修改url的关键字
在这里插入图片描述
3. 先抓取分类里面的Id

# 构建请求头
headers = {
    'Accept-Language': 'zh-CN,zh;q=0.8',
    'User-Agent': 'okhttp-okgo/jeasonlzy',
    'Content-Type': 'application/json',
    'Host': 'sc.canrike.com',
    'Connection': 'Keep-Alive',
    'Accept-Encoding': 'gzip',
}


# 抓取Id
def get_Id():
    url = 'https://sc.canrike.com/BookCategory.html'
    # 请求url，返回的数据是json格式
    resp = requests.get(url, headers=headers).json()
    # 判断resp是否存在
    if resp:
        # 取出返回json数据里面的data键值对，data是一个列表
        # 里面有我们需要的Id，通过Id来获取后面我们需要的信息
        Ids = resp.get('data')
        for temp in Ids:
            Id = temp.get('Id')
            yield Id

4. 先写获取最热书籍的信息，后面最新，榜单，完结的都是一样的代码，只需要更改url里面的关键字（比如hot,new,vote,over这些）。

# 获取最热的书籍信息
def get_hot_info(Id):
    page = 1
    while True:
        time.sleep(1)
        url = 'https://sc.canrike.com/Categories/{0}/hot/{1}.html'.format(Id, page)
        resp = requests.get(url, headers=headers)
        if resp.status_code == 200:
            try:
                data = json.loads(resp.content.decode('utf-8-sig'))
                BookLists = data.get('data').get('BookList')
                if BookLists:
                    for BookList in BookLists:
                        data_dict = {}

                        data_dict['Id'] = BookList.get('Id')
                        data_dict['Name'] = BookList.get('Name')
                        data_dict['Author'] = BookList.get('Author')
                        data_dict['CName'] = BookList.get('CName')
                        data_dict['Score'] = BookList.get('Score')
                        data_dict['Desc'] = BookList.get('Desc').replace('\u3000', '').replace('\r\n', '')

                        # 实时保存文件
                        title = data_dict.keys()
                        with open('快读小说.csv', 'a+', encoding='utf-8-sig', newline='') as f:
                            writer = csv.DictWriter(f, title)
                            writer.writerow(data_dict)

                        print(data_dict)
                page += 1
            except Exception as e:
                page += 1
                continue
        else:
            print('到底了')
            break

5. 上一步的函数里面有个实时保存数据，先在main函数写上表头，不然的话csv文件没表头就不知道你保存的信息分别是啥了。

def main():

    # 先对csv文件写入表头，后面就不需要在写了
    title = ['Id', 'Name', 'Author', 'Cname', 'Score', 'Desc']
    with open('快读小说.csv', 'a+', encoding='utf-8-sig', newline='') as f:
        writer = csv.writer(f)
        writer.writerow(title)
    print('表头写入完成， 开始爬取数据')

    for Id in get_Id():
        get_hot_info(Id)
        get_new_info(Id)
        get_vote_info(Id)
        get_over_info(Id)

    print('爬取完成')

6. 全部代码附上

import requests
import json
import csv
import time


# 构建请求头
headers = {
    'Accept-Language': 'zh-CN,zh;q=0.8',
    'User-Agent': 'okhttp-okgo/jeasonlzy',
    'Content-Type': 'application/json',
    'Host': 'sc.canrike.com',
    'Connection': 'Keep-Alive',
    'Accept-Encoding': 'gzip',
}


# 抓取Id
def get_Id():
    url = 'https://sc.canrike.com/BookCategory.html'
    # 请求url，返回的数据是json格式
    resp = requests.get(url, headers=headers).json()
    # 判断resp是否存在
    if resp:
        # 取出返回json数据里面的data键值对，data是一个列表
        # 里面有我们需要的Id，通过Id来获取后面我们需要的信息
        Ids = resp.get('data')
        for temp in Ids:
            Id = temp.get('Id')
            yield Id


# 获取最热的书籍信息
def get_hot_info(Id):
    page = 1
    while True:
        time.sleep(1)
        url = 'https://sc.canrike.com/Categories/{0}/hot/{1}.html'.format(Id, page)
        resp = requests.get(url, headers=headers)
        if resp.status_code == 200:
            try:
                data = json.loads(resp.content.decode('utf-8-sig'))
                BookLists = data.get('data').get('BookList')
                if BookLists:
                    for BookList in BookLists:
                        data_dict = {}

                        data_dict['Id'] = BookList.get('Id')
                        data_dict['Name'] = BookList.get('Name')
                        data_dict['Author'] = BookList.get('Author')
                        data_dict['CName'] = BookList.get('CName')
                        data_dict['Score'] = BookList.get('Score')
                        data_dict['Desc'] = BookList.get('Desc').replace('\u3000', '').replace('\r\n', '')

                        # 实时保存文件
                        title = data_dict.keys()
                        with open('快读小说.csv', 'a+', encoding='utf-8-sig', newline='') as f:
                            writer = csv.DictWriter(f, title)
                            writer.writerow(data_dict)

                        print(data_dict)
                page += 1
            except Exception as e:
                page += 1
                continue
        else:
            print('到底了')
            break


# 获取最新的书籍信息
def get_new_info(Id):
    page = 1
    while True:
        time.sleep(1)
        url = 'https://sc.canrike.com/Categories/{0}/new/{1}.html'.format(Id, page)
        resp = requests.get(url, headers=headers)
        if resp.status_code == 200:
            try:
                data = json.loads(resp.content.decode('utf-8-sig'))
                BookLists = data.get('data').get('BookList')
                if BookLists:
                    for BookList in BookLists:
                        data_dict = {}

                        data_dict['Id'] = BookList.get('Id')
                        data_dict['Name'] = BookList.get('Name')
                        data_dict['Author'] = BookList.get('Author')
                        data_dict['CName'] = BookList.get('CName')
                        data_dict['Score'] = BookList.get('Score')
                        data_dict['Desc'] = BookList.get('Desc').replace('\u3000', '').replace('\r\n', '')

                        # 实时保存文件
                        title = data_dict.keys()
                        with open('快读小说.csv', 'a+', encoding='utf-8-sig', newline='') as f:
                            writer = csv.DictWriter(f, title)
                            writer.writerow(data_dict)

                        print(data_dict)
                page += 1
            except Exception as e:
                page += 1
                continue
        else:
            print('到底了')
            break


# 获取榜单的书籍信息
def get_vote_info(Id):
    page = 1
    while True:
        time.sleep(1)
        url = 'https://sc.canrike.com/Categories/{0}/vote/{1}.html'.format(Id, page)
        resp = requests.get(url, headers=headers)
        if resp.status_code == 200:
            try:
                data = json.loads(resp.content.decode('utf-8-sig'))
                BookLists = data.get('data').get('BookList')
                if BookLists:
                    for BookList in BookLists:
                        data_dict = {}

                        data_dict['Id'] = BookList.get('Id')
                        data_dict['Name'] = BookList.get('Name')
                        data_dict['Author'] = BookList.get('Author')
                        data_dict['CName'] = BookList.get('CName')
                        data_dict['Score'] = BookList.get('Score')
                        data_dict['Desc'] = BookList.get('Desc').replace('\u3000', '').replace('\r\n', '')

                        # 实时保存文件
                        title = data_dict.keys()
                        with open('快读小说.csv', 'a+', encoding='utf-8-sig', newline='') as f:
                            writer = csv.DictWriter(f, title)
                            writer.writerow(data_dict)

                        print(data_dict)
                page += 1
            except Exception as e:
                page += 1
                continue
        else:
            print('到底了')
            break


# 获取完结的书籍信息
def get_over_info(Id):
    page = 1
    while True:
        time.sleep(1)
        url = 'https://sc.canrike.com/Categories/{0}/over/{1}.html'.format(Id, page)
        resp = requests.get(url, headers=headers)
        if resp.status_code == 200:
            try:
                data = json.loads(resp.content.decode('utf-8-sig'))
                BookLists = data.get('data').get('BookList')
                if BookLists:
                    for BookList in BookLists:
                        data_dict = {}

                        data_dict['Id'] = BookList.get('Id')
                        data_dict['Name'] = BookList.get('Name')
                        data_dict['Author'] = BookList.get('Author')
                        data_dict['CName'] = BookList.get('CName')
                        data_dict['Score'] = BookList.get('Score')
                        data_dict['Desc'] = BookList.get('Desc').replace('\u3000', '').replace('\r\n', '')

                        # 实时保存文件
                        title = data_dict.keys()
                        with open('快读小说.csv', 'a+', encoding='utf-8-sig', newline='') as f:
                            writer = csv.DictWriter(f, title)
                            writer.writerow(data_dict)

                        print(data_dict)
                page += 1
            except Exception as e:
                page += 1
                continue
        else:
            print('到底了')
            break


def main():

    # 先对csv文件写入表头，后面就不需要在写了
    title = ['Id', 'Name', 'Author', 'Cname', 'Score', 'Desc']
    with open('快读小说.csv', 'a+', encoding='utf-8-sig', newline='') as f:
        writer = csv.writer(f)
        writer.writerow(title)
    print('表头写入完成， 开始爬取数据')

    for Id in get_Id():
        get_hot_info(Id)
        get_new_info(Id)
        get_vote_info(Id)
        get_over_info(Id)

    print('爬取完成')


if __name__ == '__main__':

    main()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python爬虫

app爬虫

快读小说app爬虫

python爬虫——爬取快读小说app 的相关文章

[Python爬虫] Selenium实现自动登录163邮箱和Locating Elements介绍

前三篇文章介绍了安装过程和通过Selenium实现访问Firefox浏览器并自动搜索 Eastmount 关键字及截图的功能而这篇文章主要简单介绍如何实现自动登录163邮箱同时继续介绍Selenium Python官网Locating
Python爬虫该怎么学习？学习步骤是什么？

学Python 想必大家都是从爬虫开始的吧 python爬虫即网络爬虫网络爬虫是一种程序主要用于搜索引擎它将一个网站的所有内容与链接进行阅读并建立相关的全文索引到数据库中然后跳到另一个网站搜索引擎 SearchEngine 是
python模拟登录京东网页

目标网站京东网首页登录目标网址 https www jd com 任务要求 1 导入selenium库并使用该库驱动Chrom浏览器完成请求 2 驱动浏览器对象找到登录按钮点击 3 在新页面中选择账号登录 4 找到用户名和密码输
AutoScraper——爬虫神器

AutoScraper是一个自动化的爬虫工具非常智能而且使用简单便捷 AutoScraper 是使用 Python 实现的 Web 爬虫兼容 Python 3 能快速且智能获取指定网站上的数据在github上具有4 8K githu
爬虫需要知道的基础

一爬虫概述 1 爬虫必须知道的要素爬虫要遵循网上的爬虫机器人协议怎样查看在网址后面加上 robots txt来查看可以查到哪些是允许的哪些是不允许的爬虫的基本步骤找到网址发起请求解析页面并获得原始数据对数据进行处理保
Python实现输入电影名字自动生成豆瓣评论词云图（带GUI界面）小程序

Python实现输入电影名字自动生成豆瓣评论词云图带GUI界面小程序一项目背景电影逐渐成为人们生活的不可或缺的一部分而了解一部电影的可以通过电影评分与大众推荐度但以上的方式都太过于片面了解一部电影的方法是通过已经观看完电影的
Anaconda简介

anaconda是python发行的包的管理工具其中自带python的版本还带很多python的包安装它比安装python好可以省掉再安装python包的时间推荐使用Anaconda 用Anaconda安装python的包是非常便
面向小白的最全Python可视化教程，超全的

今天小编总结归纳了若干个常用的可视化图表并且通过调用plotly matplotlib altair bokeh和seaborn等模块来分别绘制这些常用的可视化图表最后无论是绘制可视化的代码还是会指出来的结果都会通过调用streaml
知乎美女挖掘指南--Python实现自动化图片抓取、颜值评分

声明文中所有文字图片以及相关外链中直接或间接明示或暗示涉及性别颜值分数等信息全部由相关人脸检测接口给出无任何客观性仅供参考 1 数据源知乎话题美女下所有问题中回答所出现的图片 2 抓取工具 Python 3 并使用第三方
某乎搜索接口x-zse-96参数逆向学习分析，网站：aHR0cHM6Ly93d3cuemhpaHUuY29tLw==

目标参数 x zse 96 参数分析全局搜索x zse 96 只有两个地方出行打上断点后刷新网页从图中断点地方可以看到搞清楚u f s 的由来就解决了x zse 96 可以看到s参数是由以下几部分组成 1 101 3 2 0 固定版
Python模拟登陆万能法-微博

Python模拟登陆让不少人伤透脑筋今天奉上一种万能登陆方法你无须精通HTML 甚至也无须精通Python 但却能让你成功的进行模拟登陆本文讲的是登陆所有网站的一种方法并不局限于微博与知乎仅用其作为例子来讲解用到的库有 sele
利用几行python代码爬取全国疫情数据，全方位地图分析疫情地区分布

爬取全国疫情数据所用的网页连接 https api inews qq com newsqa v1 automation foreign country ranklist 可视化用到的模块 gt 戳这里下载也可以看最后或私信我如果没有
【1】python爬虫入门，利用bs4以及requests获取静态网页

注本文仅适用于爬虫初级入门者并不涉及太多技术本质感谢您阅读此文最近放假在家闲时无聊开始入门了python爬虫可以完成一些基本的数据爬取对于一些反爬取例如JS渲染接口加密等页面仍然处于学习之中本文就是简单总结最近已熟练掌握
python是真刑啊！爬虫这样用，离好日子越铐越近了~

一个程序员写了个爬虫程序整个公司200多人被端了不可能吧刚从朋友听到这个消息的时候我有点不太相信做为一名程序员来讲谁还没有写过几段爬虫呢只因写爬虫程序就被端有点夸张了吧朋友说消息很确认并且已经进入审判阶段了 01 对消息进
使用正则表达式爬虫抓取猫眼电影排行Top100

目标站点分析分析网址首页 https maoyan com 点击榜单 https maoyan com board 点击Top100 https maoyan com board 4 目标站点为 https maoyan com boa
05笔趣阁小说爬取--爬取作者所有小说

前面的程序已经实现了从笔趣阁自动爬取整部小说接下来在之前的基础上将功能进一步扩展实现自动爬取某一作者在笔趣阁中的所有小说继续以方想为例下图是方想作品列表的页面 https www 52bqg com modules article
6个Python童年小游戏，开始敲起来，玩吧！

你的童年我的童年好像都一样谁的童年又没玩过游戏呢这些小游戏应该只有玩过才会懂吧虽然程序员敲代码多年但童心还是一直都在的今天就分享一些私藏的童年游戏十几行代码就能进入使用Python开发的小游戏快乐玩耍 1 五子棋童年游戏不可
爬虫跨域请求获取json数据解决参数加密

分析网址提示抓取对方信息是通过对方允许的请不要违法操作抓取其他个人有关信息网址先发送了一个OPTIONS请求 Request URL http xxxxxxxx com Request Method OPTIONS Status
英雄联盟英雄信息【python爬虫】

文章目录下面开始正式教学思路分析开始工作这里要注意一下实现以下是全部代码相信大家都知道撸啊撸这个游戏了吧小时候偷偷跑去网吧和朋友们开黑的日子那是我们逝去的青春学了爬虫课后终于按捺不住了决定自己手动编写爬虫程序就把自己
Python爬虫-MongoDB

Python爬虫 MongoDB 文章目录 Python爬虫 MongoDB 前言与MySQL对比启动关闭MongoDB 操作数据库操作集合操作数据操作增删改查保存运算符高级操作聚合常用管道常用表达式安全性

随机推荐

安卓Android和Java语言的异同、关系和区别

安卓Android和Java语言的异同关系和区别安卓Android是一种以Linux为基础的开放源码操作系统主要使用于便携设备 2011年第一季度安卓在全球的市场份额首次超过塞班系统跃居全球第一 2012年2月数据安卓占据全球智
Linux Ctrl+ 所有的快捷键

Ctrl a 光标移到行首 Ctrl b 光标向前移一格 Ctrl c 结束命令 Ctrl d 删除光标所在字符 Ctrl e 光标移到行尾 Ctrl f 光标向后移一格 Ctrl g Ctrl h 删除光标前一格 Ctrl i Ctrl
SoC性能指标&ARM内核运算能力

自动驾驶芯片常用的性能评价指标 TOPS DMIPS GFLOPS分别说的是啥 TOPS Tera Operation Per Second 表示每秒钟可以进行的操作数量用于衡量自动驾驶的算力众所周知汽车上最常用的传感器是摄像头而与
URP——后期处理特效

通用渲染管道 URP 包括一个后处理效果的集成实现如果使用URP 则不需要为后期处理效果安装额外的包 URP与Post Processing Stack v2包不兼容 URP使用体积框架进行后期处理效果下面的图片显示了一个URP场景有没
解决qt中cmake单独存放 .ui, .cpp, .h文件

创建时间 2023 02 18 17 58 04 设想项目文件较多全部放在一个目录下就像依托答辩希望能将头文件放入include ui文件放入ui 源文件放入src 为了将Qt代码和一般非Qt代码分离开进一步地将Qt源文件放入qt
【Java】关于你不知道的Java大整数运算之BigInteger类超级好用！！！

目录一 BigInteger类简单介绍二 BigInteger构造方式 1 构造方式 2 输入方式三 BigInteger常见的成员方法 1 方法介绍 2 方法使用演示 1 加减乘除余 2 比较 3 绝对值和幂 4 转换成对应进制字符
java学习笔记——第八章类和方法（二）

8 4使用方法 java中的方法不能独立存在他必须属于一个类或者一个对象因此方法也不能像函数那样被独立执行因此必须使用类或对象来调用总结方法不能独立定义方法只能在类体中定义逻辑上讲方法要么属于该类本身要么属于该类的一个对象
Flex布局实战详解

Flex布局详解 1 父项属性 flex direction 设置主轴的方向 justify content 设置主轴上的子元素排列方式 flex wrap 设置子元素是否换行 align content 设置侧轴上的子元素排列方式多行
Office报错:错误代码：30015-6(-1)

扩展一查找ospp vbs的位置二打开管理员命令提示符三运行以下命令查询SKU ID cscript C Program Files x86 Microsoft Office Office15 ospp vbs dstat
c++检测固定usb端口有无设备接入_TypeC协议简介（CC检测原理）

1 简介越来越多的手机开始采用Type C作为充电和通信端口 Type C连接器实物和PIN定义如下图 Type C连接器中有两个管脚CC1和CC2 他们用于识别连接器的插入方向以及不同的插入设备本文介绍CC的基本识别原理先介绍几个
阿里云安装Docker添加源报错E: Malformed entry XX in list file /etc/apt/sources.list (Component)

E Malformed entry 60 in list file etc apt sources list Component E The list of sources could not be read 在阿里云上添加了Docker官
Tomcat启动失败连接url中参数useSSL=true引发的缺少证书异常

第一次使用Tomcat的小白启动Tomecat一直报错 The last packet successfully received from the server was 6 milliseconds ago The last packe
【转】Adapter应用总结

Adapter应用总结首先来看一下Adapter的体系结构一个Adapter的对象扮演一个桥梁的角色这个桥梁连接着一个AdapterView和它所包含的数据 Adapter提供了一个通到数据项的途径 Adapter还负责为在数据集里的
Python的shelve模块小问题

shelve模块是个数据存储模块可以在文件中存储数据只需为其提供文件名在练习时贴的代码 pre class python import shelve m shelve open r F python Te dat 运行结果报错 T
8 个很棒的 Vue 开发技巧

1 路由参数解耦通常在组件中使用路由参数大多数人会做以下事情 export default methods getParamsId return this route params id 在组件中使用 route 会导致与其相应路由的高
flex 弹性盒子布局多行最后一行左对齐的两种解决办法

首先是这样事儿的如下图我们最终想要的效果应该是平均分布和最后一排依次从左向右排列那么第一种解决方式外层容器给弹性盒子布局且给外层盒子一个after 伪类元素 wrap width 200px height 200px displ
HAL库中HAL_UART_Transmit函数 Timeout的意义--串口发送数据的计算

HAL StatusTypeDef HAL UART Transmit UART HandleTypeDef huart uint8 t pData uint16 t Size uint32 t Timeout 这个是超时在设置的这个时间
国债期货合约代码是什么字母

国债期货合约代码是什么字母二债代码TS 合约标的是面值为万元人民币票面利率为3 的名义中短期国债五债代码TF 合约标的是面值为万元人民币票面利率为3 的名义中期国债十债代码T 拓展资料一期货交易就是赚取差价期货交易实际
Matlab中绘制Bode图与单位阶跃响应图

假设传递函数方程为分析k分别为4 1 0 5时bode图和阶跃响应的不同 gt gt w 2 pi 50 gt gt num1 0 5 w 1 0 gt gt den1 1 0 5 w w 2 gt gt num2 1 w 1 0 gt
python爬虫——爬取快读小说app

1 爬取结果 csv文件出现了有两个表头不明所以无关大雅 2 使用fiddler4进行抓包通过观察url 我们不难发现其中的规律要实现进行分类抓取需要更改url第一个数字如下 https sc canrike com Cate

python爬虫——爬取快读小说app

python爬虫——爬取快读小说app 的相关文章

随机推荐

热门标签