Python 爬虫爬取豆瓣读书小说类前十页标签

2023-11-09

呜呜呜，小白的爬虫之路……留个记录~~~~

一、导入库

import requests
from bs4 import BeautifulSoup
import sqlite3

二、获取豆瓣读书小说类1-10页网址

#获取分页的地址
root_url='https://book.douban.com/tag/小说'
headers={
        'Referer':'https://book.douban.com',
        'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:81.0) Gecko/20100101 Firefox/81.0'
    }
r=requests.get(root_url,headers=headers)
html= r.text
page_div = BeautifulSoup(html,'html.parser').select('.paginator a')
root='https://book.douban.com'
page_urls=[]
page_urls.append(root_url)

#将2-9页的URL地址加入地址列表
for item in page_div[:8]:
    page_urls.append(root+item.attrs['href'])
nine='https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=160&type=T'
rs=requests.get(nine,headers=headers)

#将第10页单独加入地址列表中
nines=rs.text
ten=BeautifulSoup(nines,'html.parser').select('.next a')
for i in ten:
    page_urls.append(root+i.attrs['href'])

三、创建数据库

#创建一个数据库，路径可自定义
conn = sqlite3.connect('C:/Users/Administrator/DB.db')

四、创建表

#创建表： id,name,author,content
sql_tables = "create table douban(id integer primary key autoincrement,name text,author text,estimate text,content text)"
conn.execute(sql_tables)
conn.commit()

五、获取图书信息并保存于列表total

#对每一页进行爬取,并将结果保存到数据库
total=[]
sum=0
for url in page_urls:
    sum+=1

    #获取每一页的源代码
    html=requests.get(url,headers=headers).text

    #获取每本书书名
    title_div = BeautifulSoup(html,'html.parser').select('.info h2')
    titles = [item.text for item in title_div]

    #获取每本书作者、出版社、出版日期、价格
    author_div = BeautifulSoup(html,'html.parser').select('.pub')
    authors = [item.text for item in author_div]

    #获取每本书评分及评分人数
    estimate_div = BeautifulSoup(html,'html.parser').select('.star.clearfix')
    es = [item.text for item in estimate_div]

    #获取每本书内容简介
    div = BeautifulSoup(html,'html.parser').select('.info p')
    divv = [item.text for item in div]

    #由于豆瓣读书小说类第四页和第八页有几本图书处于无简介状态，故用/代替
    if sum==4:
        divv.insert(4,'/')
    elif sum==8:
        divv.insert(2,'/')
        divv.insert(10,'/')
    total.append(titles+authors+es+divv)

六、将图书信息列表依次存入数据库的表中

print("开始存入数据库....")
page=total
for index,page in enumerate(total):
    print("写入第{}页的诗词".format(index+1))
    for i in range(20):        
        name=page[i]
        author=page[i+20]
        ess=page[i+40]
        content=page[i+60]
        sql="insert into douban values(null,'{}','{}','{}','{}')".format(name,author,ess,content)
        conn.execute(sql)
        conn.commit()
    print("第{}页的图书标签已经爬取完毕，稍等进行下一页".format(index+1))
print("恭喜你，所有豆瓣前十页图书标签已经存储完毕...")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python爬虫之旅

python

爬虫

Python 爬虫爬取豆瓣读书小说类前十页标签的相关文章

用于将 cython 中的许多 C++ 类包装到单个共享对象的项目结构

我在文档邮件列表和这个问题在这里 https stackoverflow com questions 10300660 cython and distutils 但我想得到一个更直接的答案来解决我的具体情况我正在通过尝试一点一点地包装我
Python 中的 Lanczos 插值与 2D 图像

我尝试重新缩放 2D 图像灰度图像大小为 256x256 所需输出为 224x224 像素值范围从 0 到 1300 我尝试了两种使用 Lanczos 插值来重新调整它们的方法首先使用PIL图像 import numpy as np
Python（Selenium）：如何通过登录重定向/组织登录登录网站

我不是专业程序员所以请原谅任何愚蠢的错误我正在做一些研究我正在尝试使用 Selenium 登录数据库来搜索大约 1000 个术语我有两个问题 1 重定向到组织登录页面后如何使用 Selenium 登录 2 如何检索数据库在我解决
Flask 会话变量

我正在用 Flask 编写一个小型网络应用程序当两个用户在同一网络下尝试使用应用程序时我遇到会话变量问题这是代码 import os from flask import Flask request render template
从字符串中删除识别的日期

作为输入我有几个包含不同格式日期的字符串例如彼得在16 45 我的生日是1990年7月8日 On 7 月 11 日星期六我会回家 I use dateutil parser parse识别字符串中的日期在下一步中我想从字符串中删除
如何使用 Ansible playbook 中的 service_facts 模块检查服务是否存在且未安装在服务器中？

我用过service facts检查服务是否正在运行并启用在某些服务器中未安装特定的软件包现在我如何知道这个特定的软件包没有安装在该特定的服务器上service facts module 在 Ansible 剧本中它显示以下错误
使用 on_bad_lines 将 pandas.read_csv 中的无效行写入文件

我有一个 CSV 文件我正在使用 Python 来解析该文件我发现文件中的某些行具有不同的列数 001 Snow Jon 19801201 002 Crom Jake 19920103 003 Wise Frank 19880303 l
如何替换 pandas 数据框列中的重音符号

我有一个数据框dataSwiss其中包含瑞士城市的信息我想用普通字母替换带有重音符号的字母这就是我正在做的 dataSwiss Municipality dataSwiss Municipality str encode utf 8 d
SQLALchemy .query：类“Car”的未解析属性引用“query”

我有一个这里已经提到的问题https youtrack jetbrains com issue PY 44557 https youtrack jetbrains com issue PY 44557 但我还没有找到解决方案我使用 Pyt
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
OpenCV 无法从 MacBook Pro iSight 捕获

几天后我无法再从 opencv 应用程序内部打开我的 iSight 相机 cap cv2 VideoCapture 0 返回并且cap isOpened 回报true 然而 cap grab 刚刚返回false 有任何想法吗示例代码
Pygame：有没有简单的方法可以找到按下的任何字母数字的字母/数字？

我目前正在开发的游戏需要让人们以自己的名义在高分板上计时我对如何处理按键有点熟悉但我只处理过寻找特定的按键有没有一种简单的方法可以按下任意键的字母而不必执行以下操作 for event in pygame event get if
在f字符串中转义字符[重复]

这个问题在这里已经有答案了我遇到了以下问题f string gt gt gt a hello how to print hello gt gt gt f a a gt gt gt f a File
将图像分割成多个网格

我使用下面的代码将图像分割成网格的 20 个相等的部分 import cv2 im cv2 imread apple jpg im cv2 resize im 1000 500 imgwidth im shape 0 imgheight i
每个 X 具有多个 Y 值的 Python 散点图

我正在尝试使用 Python 创建一个散点图其中包含两个 X 类别 cat1 cat2 每个类别都有多个 Y 值如果每个 X 值的 Y 值的数量相同我可以使用以下代码使其工作 import numpy as np import mat
对年龄列进行分组/分类

我有一个数据框说df有一个柱子 Ages gt gt gt df Age 0 22 1 38 2 26 3 35 4 35 5 1 6 54 我想对这个年龄段进行分组并创建一个像这样的新专栏 If age gt 0 age lt 2 the
Conda SafetyError：文件大小不正确

使用创建 Conda 环境时conda create n env name python 3 6 我收到以下警告 Preparing transaction done Verifying transaction SafetyError Th
使用 Python 绘制 2D 核密度估计

I would like to plot a 2D kernel density estimation I find the seaborn package very useful here However after searching
如何计算 pandas 数据帧上的连续有序值

我试图从给定的数据帧中获取连续 0 值的最大计数其中包含来自 pandas 数据帧的 id date value 列如下所示 id date value 354 2019 03 01 0 354 2019 03 02 0 354 201
NotImplementedError：无法将符号张量 (lstm_2/strided_slice:0) 转换为 numpy 数组。时间

张量流版本 2 3 1 numpy 版本 1 20 在代码下面 define model model Sequential model add LSTM 50 activation relu input shape n steps n fe

随机推荐

Gym - 102263 B - Road to Arabella

原题内容 Ayoub and Kilani felt board while they are going to ArabellaCPC in Amman Irbid road so Kilani invented a new game t
基于STM8的TIM定时器操作---STM8-第三章

1 综述 STM8S提供三种类型的 TIM 定时器高级控制型 TIM1 通用型 TIM2 TIM3 TIM5 和基本型定时器 TIM4 TIM6 它们虽有不同功能但都基于共同的架构此共同的架构使得采用各个定时器设计应用变得非常容易与方便
三目运算符

三目运算符又称条件运算符是计算机语言 c c java等的重要组成部分它是唯一有3个操作数的运算符所以有时又称为三元运算符一般来说三目运算符的结合性是右结合的定义对于条件表达式b x y 先计算条件b 然后进行判断如果b
yolov5训练报错： a view of a leaf Variable that requires grad is being used in an in-place operation

梯度信息丢失错误报错详情报错原因解决方法报错详情 RuntimeError a view of a leaf Variable that requires grad is being used in an in place oper
python简单爬虫实例，爬取CSDN文章

查看要爬的网页的源代码准备爬取所有文章和链接代码 import requests from bs4 import BeautifulSoup url https blog csdn net LI AINY headers User Ag
基于Spark的分布式数据处理和机器学习技术【上进小菜猪大数据】

上进小菜猪沈工大软件工程专业爱好敲代码持续输出干货大数据已经成为当今社会中一个重要的资源和挑战随着数据规模的不断增长如何高效地处理和分析这些数据成为了一个关键问题本文将介绍基于Apache Spark的分布式数据处理和机器学习
【机器学习】通俗易懂决策树（原理篇）

决策树引言决策树是什么怎样利用决策树来帮助我们分类怎样构建自己的决策树决策树是一种类似流程图的结构其中每个内部节点代表一个属性的测试例如硬币翻转出现正面朝上或反面朝上每个分支代表测试的结果每个叶节点代表一个类标签在计算
flutter_tools/gradle/app_plugin_loader.gradle‘ as it does not exist

背景 flutter 1 17 hotfix5 因为使用flutter crate 来创建新项目的在之前的windows电脑能够正常运行但是在mac电脑上死活运行不上去查了很久 github上也查看了相关issuer 发现解决问题的方
MPP数据库简介及架构分析

目录什么是MPP 特性并行处理超大规模数据仓库真正适合什么典型的分析工作量数据集中化线性可伸缩性 MPP架构技术特性数据库架构分析 Shared Everything Shared Disk Share Memory Sha
elastic weight consolidation

GitHub kuc2477 pytorch ewc Unofficial PyTorch implementation of DeepMind s PNAS 2017 paper Overcoming Catastrophic Forge
Springboot简单实现用户登录操作

从0开始开发SpringBoot vue前后端分离项目文章目录从0开始开发SpringBoot vue前后端分离项目一创建Springboot项目二引入依赖三插件推荐 1 Mybatis Log Free 2 Free My
c# 代码实现通过域名获取IPV4地址

c 代码实现通过域名获取IPV4地址 IPHostEntry iPHostEntry Dns GetHostByName www baidu com IPAddress ip iPHostEntry AddressList 0 label1
每日一题（两数相加）

每日一题两数相加 2 两数相加力扣 LeetCode 思路思路由于链表从头开始向后存储的是低权值位的数据所以只需要两个指针p1和p2 分别从链表的头节点开始遍历同时创建一个新的指针newhead 用于构造新链表将创建的新节点进
交换两数（不使用中间变量）

引出问题说到交换两数的值对大家来说应该是一个非常简单的任务但是我们最常用的方法就是创建一个临时变量再通过这个临时变量来改变两值如下 int temp a a b b temp 但是难道交换两个变量就只有这一种做法吗方法1 其
IntelliJ IDEA写JSP文件出现“cannot resolve method”解决办法

最近在使用IDEA写JSP文件的时候有些内置对象出现了cannot resolve method的警告提示代码运行没有问题在编写的时候也不会提示最后请教了万能的搜索引擎解决了此问题解决办法该错误的导致的原因是因为没有在项目中添
利用 Android Studio 和 Gradle 打包多版本APK( applicationIdSuffix)

在项目开发过程中经常会有需要打包不同版本的 APK 的需求比如 debug版 release版 dev版等等有时候不同的版本中使用到的不同的服务端api域名也不相同比如 debug api com release api com d
Node.js到底是什么？

前言 Node js是一个基于Chrome V8引擎的JavaScript运行环境 JavaScript是脚本语言脚本语言需要一个解析器运行环境才能运行若运行在浏览器中则浏览器就是JavaScript的解析器运行环境而对于独立
Spark数据分析之pyspark

Spark数据分析之pyspark 一大数据简史从hadoop到Spark 1 hadoop的出现 1 问题 1990年电商爆发以及机器产生了大量数据单一的系统无法承担 2 办法为了解决 1 的问题许多公司尤其是大公司领导了普通
【VUE】拖动侧边栏以便自由调整左右两侧的宽度

效果 1 拖动前 2 拖动后主要代码
Python 爬虫爬取豆瓣读书小说类前十页标签

呜呜呜小白的爬虫之路留个记录一导入库 import requests from bs4 import BeautifulSoup import sqlite3 二获取豆瓣读书小说类1 10页网址获取分页的地址 root url

Python 爬虫爬取豆瓣读书小说类前十页标签

Python 爬虫爬取豆瓣读书小说类前十页标签 的相关文章

随机推荐

热门标签

Python 爬虫爬取豆瓣读书小说类前十页标签的相关文章