Python 爬虫爬取豆瓣读书小说类前十页标签

2023-11-09

呜呜呜,小白的爬虫之路……留个记录~~~~

一、导入库

import requests
from bs4 import BeautifulSoup
import sqlite3

二、获取豆瓣读书小说类1-10页网址

#获取分页的地址
root_url='https://book.douban.com/tag/小说'
headers={
        'Referer':'https://book.douban.com',
        'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:81.0) Gecko/20100101 Firefox/81.0'
    }
r=requests.get(root_url,headers=headers)
html= r.text
page_div = BeautifulSoup(html,'html.parser').select('.paginator a')
root='https://book.douban.com'
page_urls=[]
page_urls.append(root_url)

#将2-9页的URL地址加入地址列表
for item in page_div[:8]:
    page_urls.append(root+item.attrs['href'])
nine='https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=160&type=T'
rs=requests.get(nine,headers=headers)

#将第10页单独加入地址列表中
nines=rs.text
ten=BeautifulSoup(nines,'html.parser').select('.next a')
for i in ten:
    page_urls.append(root+i.attrs['href'])

三、创建数据库

#创建一个数据库,路径可自定义
conn = sqlite3.connect('C:/Users/Administrator/DB.db')

四、创建表

#创建表: id,name,author,content
sql_tables = "create table douban(id integer primary key autoincrement,name text,author text,estimate text,content text)"
conn.execute(sql_tables)
conn.commit()

五、获取图书信息并保存于列表total

#对每一页进行爬取,并将结果保存到数据库
total=[]
sum=0
for url in page_urls:
    sum+=1

    #获取每一页的源代码
    html=requests.get(url,headers=headers).text

    #获取每本书书名
    title_div = BeautifulSoup(html,'html.parser').select('.info h2')
    titles = [item.text for item in title_div]

    #获取每本书作者、出版社、出版日期、价格
    author_div = BeautifulSoup(html,'html.parser').select('.pub')
    authors = [item.text for item in author_div]

    #获取每本书评分及评分人数
    estimate_div = BeautifulSoup(html,'html.parser').select('.star.clearfix')
    es = [item.text for item in estimate_div]

    #获取每本书内容简介
    div = BeautifulSoup(html,'html.parser').select('.info p')
    divv = [item.text for item in div]

    #由于豆瓣读书小说类第四页和第八页有几本图书处于无简介状态,故用/代替
    if sum==4:
        divv.insert(4,'/')
    elif sum==8:
        divv.insert(2,'/')
        divv.insert(10,'/')
    total.append(titles+authors+es+divv)

六、将图书信息列表依次存入数据库的表中

print("开始存入数据库....")
page=total
for index,page in enumerate(total):
    print("写入第{}页的诗词".format(index+1))
    for i in range(20):        
        name=page[i]
        author=page[i+20]
        ess=page[i+40]
        content=page[i+60]
        sql="insert into douban values(null,'{}','{}','{}','{}')".format(name,author,ess,content)
        conn.execute(sql)
        conn.commit()
    print("第{}页的图书标签已经爬取完毕,稍等进行下一页".format(index+1))
print("恭喜你,所有豆瓣前十页图书标签已经存储完毕...")

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python 爬虫爬取豆瓣读书小说类前十页标签 的相关文章

随机推荐

  • Gym - 102263 B - Road to Arabella

    原题内容 Ayoub and Kilani felt board while they are going to ArabellaCPC in Amman Irbid road so Kilani invented a new game t
  • 基于STM8的TIM定时器操作---STM8-第三章

    1 综述 STM8S提供三种类型的 TIM 定时器 高级控制型 TIM1 通用型 TIM2 TIM3 TIM5 和基本型定时器 TIM4 TIM6 它们虽有不同功能但都基于共同的架构 此共同的架构使得采用各个定时器设计应用变得非常容易与方便
  • 三目运算符

    三目运算符 又称条件运算符 是计算机语言 c c java等 的重要组成部分 它是唯一有3个操作数的运算符 所以有时又称为三元运算符 一般来说 三目运算符的结合性是右结合的 定义 对于条件表达式b x y 先计算条件b 然后进行判断 如果b
  • yolov5训练报错: a view of a leaf Variable that requires grad is being used in an in-place operation

    梯度信息丢失错误 报错详情 报错原因 解决方法 报错详情 RuntimeError a view of a leaf Variable that requires grad is being used in an in place oper
  • python简单爬虫实例,爬取CSDN文章

    查看要爬的网页的源代码 准备爬取所有文章和链接 代码 import requests from bs4 import BeautifulSoup url https blog csdn net LI AINY headers User Ag
  • 基于Spark的分布式数据处理和机器学习技术【上进小菜猪大数据】

    上进小菜猪 沈工大软件工程专业 爱好敲代码 持续输出干货 大数据已经成为当今社会中一个重要的资源和挑战 随着数据规模的不断增长 如何高效地处理和分析这些数据成为了一个关键问题 本文将介绍基于Apache Spark的分布式数据处理和机器学习
  • 【机器学习】通俗易懂决策树(原理篇)

    决策树 引言 决策树是什么 怎样利用决策树来帮助我们分类 怎样构建自己的决策树 决策树是一种类似流程图的结构 其中每个内部节点代表一个属性的 测试 例如硬币翻转出现正面朝上或反面朝上 每个分支代表测试的结果 每个叶节点代表一个类标签 在计算
  • flutter_tools/gradle/app_plugin_loader.gradle‘ as it does not exist

    背景 flutter 1 17 hotfix5 因为使用flutter crate 来创建新项目的 在之前的windows电脑能够正常运行 但是在mac电脑上死活运行不上去 查了很久 github上也查看了相关issuer 发现解决问题的方
  • MPP数据库简介及架构分析

    目录 什么是MPP 特性 并行处理 超大规模 数据仓库真正适合什么 典型的分析工作量 数据集中化 线性可伸缩性 MPP架构技术特性 数据库架构分析 Shared Everything Shared Disk Share Memory Sha
  • elastic weight consolidation

    GitHub kuc2477 pytorch ewc Unofficial PyTorch implementation of DeepMind s PNAS 2017 paper Overcoming Catastrophic Forge
  • Springboot简单实现用户登录操作

    从0开始开发SpringBoot vue前后端分离项目 文章目录 从0开始开发SpringBoot vue前后端分离项目 一 创建Springboot项目 二 引入依赖 三 插件推荐 1 Mybatis Log Free 2 Free My
  • c# 代码实现通过域名获取IPV4地址

    c 代码实现通过域名获取IPV4地址 IPHostEntry iPHostEntry Dns GetHostByName www baidu com IPAddress ip iPHostEntry AddressList 0 label1
  • 每日一题(两数相加)

    每日一题 两数相加 2 两数相加 力扣 LeetCode 思路 思路 由于链表从头开始向后存储的是低权值位的数据 所以只需要两个指针p1和p2 分别从链表的头节点开始遍历 同时创建一个新的指针newhead 用于构造新链表 将创建的新节点进
  • 交换两数(不使用中间变量)

    引出问题 说到交换两数的值 对大家来说应该是一个非常简单的任务 但是 我们最常用的方法就是创建一个临时变量 再通过这个临时变量来改变两值 如下 int temp a a b b temp 但是 难道交换两个变量就只有这一种做法吗 方法1 其
  • IntelliJ IDEA写JSP文件出现“cannot resolve method”解决办法

    最近在使用IDEA写JSP文件的时候 有些内置对象出现了cannot resolve method的警告提示 代码运行没有问题 在编写的时候也不会提示 最后请教了万能的搜索引擎 解决了此问题 解决办法 该错误的导致的原因是因为没有在项目中添
  • 利用 Android Studio 和 Gradle 打包多版本APK( applicationIdSuffix)

    在项目开发过程中 经常会有需要打包不同版本的 APK 的需求 比如 debug版 release版 dev版等等 有时候不同的版本中使用到的不同的服务端api域名也不相同 比如 debug api com release api com d
  • Node.js到底是什么?

    前言 Node js是一个基于Chrome V8引擎的JavaScript运行环境 JavaScript是脚本语言 脚本语言需要一个解析器 运行环境 才能运行 若运行在浏览器中 则浏览器就是JavaScript的解析器 运行环境 而对于独立
  • Spark数据分析之pyspark

    Spark数据分析之pyspark 一 大数据简史 从hadoop到Spark 1 hadoop的出现 1 问题 1990年 电商爆发以及机器产生了大量数据 单一的系统无法承担 2 办法 为了解决 1 的问题许多公司 尤其是大公司领导了普通
  • 【VUE】拖动侧边栏以便自由调整左右两侧的宽度

    效果 1 拖动前 2 拖动后 主要代码
  • Python 爬虫爬取豆瓣读书小说类前十页标签

    呜呜呜 小白的爬虫之路 留个记录 一 导入库 import requests from bs4 import BeautifulSoup import sqlite3 二 获取豆瓣读书小说类1 10页网址 获取分页的地址 root url