爬虫毕设（三）：爬取动态网页

2023-11-04

动态网页分析

按照上一篇的分析，直接使用XPath找到该标签，然后通过parse提取出数据，在写入到item中就完事了。但是，当信心满满的写完代码后却发现，控制台输入了一个简简单单的[]。

小问号你是否有很多朋友。
小朋友，你是否有很多问号
一顿操作猛如虎，一看输出数据无。那么这到底是怎么回事呢？我们从头开始分析。

打开NetWork，找到tv/，点开Preview，结果发现只有一个框架，内容却是空白的。

这是由于网页执行js代码，通过Ajax请求数据来重新渲染页面的。所以我们需要找到有数据的那一个请求，然后再对该请求的目标url爬取。
在这里插入图片描述
可以在preview中看到这就是我们想要的数据。
异步请求数据
我们再找到该请求的header，找到Request URL。
真正的目标url
我们直接复制链接到地址栏中，看到我们想要的数据，这熟悉的格式，不就是json吗。
在这里插入图片描述
动手撸代码，爬取这个网页，处理json数据，拿到自己想要的数据。

class tvSpider(scrapy.Spider):
    name = "douban_tv"
    allowed_domain = ["movie.douban.com"]

    def __init__(self, *args, **kwargs):
        super(tvSpider, self).__init__(*args, **kwargs)
        self.start_urls = ["https://movie.douban.com/j/search_subjects?type=tv&tag=热门&sort=recommend&page_limit=20&page_start=0"]

    def parse(self, response):
        results = json.loads(response.body)['subjects']
        for result in results:
            tv_item = TvListItem()
            url = result['url']

            tv_item['url'] = url.strip()
            print(url)

这次我们的思路是先拿到每部电视剧的url，然后再回调二次解析的函数获取详细信息。运行爬虫，可以看到我们已经得到了自己想要的结果。
接下在就迭代使用scrapy.Request()请求每一个url，再使用二次解析函数parse_detait获取详细数据。

two years later。经过漫长的debug，终于得到以下代码代码：

    def parse_detail(self, response):
        tv_item = response.meta['tv_item']
        result = Selector(response)

        # 字符串前加u表示处理中文字符

        # 剧名
        title = result.xpath(u'//div[@id="content"]/h1/span[1]/text()').extract()[0] + result.xpath('//div[@id="content"]/h1/span[2]/text()').extract()[0]

        # 又名
        has_alias = result.xpath(u'//div[@id="info"]//span[text()="又名:"]').extract()
        if has_alias:
            alias = result.xpath(u'//div[@id="info"]//span[text()="又名:"]/following::text()[1]').extract()[0]
        else:
            alias = ''
        
        # 图片
        tv_img = result.xpath('//a[@class="nbgnbg"]/img/@src').extract()[0]

        # 导演
        has_dir = result.xpath('//div[@id="content"]//span[text()="导演"]')
        if has_dir:
            directors = result.xpath('//div[@id="info"]//span[@class="attrs"]//a[@rel="v:directedBy"]/text()')
            director_lsit = directors.extract()
            director = '/'.join(director_lsit)

        # 主演
        all_actors = result.xpath('//div[@id="info"]//span[@class="attrs"]//a[@rel="v:starring"]/text()')
        actors_list = all_actors[:5].extract()
        actors = '/'.join(actors_list)

        # 类型
        tv_types = result.xpath('//div[@id="info"]//span[@property="v:genre"]/text()')
        type_list = tv_types.extract()
        tv_type = '/'.join(type_list)

        # 制片地区或国家
        country_or_region = result.xpath(u'//div[@id="info"]//span[text()="制片国家/地区:"]/following::text()[1]').extract()[0]

        # 首播
        first_time = result.xpath('//div[@id="content"]//span[@property="v:initialReleaseDate"]/text()').extract()[0]

        # 集数 
        series = result.xpath(u'//div[@id="content"]//span[text()="集数:"]/following::text()[1]').extract()[0]

        # 单集
        has_single = result.xpath('//div[@id="content"]//span[text()="单集片长:"]')
        if has_single:
            single = result.xpath(u'//div[@id="content"]//span[text()="单集片长:"]/following::text()[1]').extract()[0]

        # 评分
        rate = result.xpath('//strong/text()').extract()[0]

        # 评分人数
        votes_num = result.xpath('//span[@property="v:votes"]/text()').extract()[0]

        # 简介
        synopsis = result.xpath('//span[@property="v:summary"]/text()').extract()[0].strip()

        tv_item['title'] = title.strip()
        tv_item['alias'] = alias.split()
        tv_item['tv_img'] = tv_img.strip()
        tv_item['director'] = director.strip()
        tv_item['actors'] = actors.strip()
        tv_item['tv_type'] = tv_type.strip()
        tv_item['country_or_region'] = country_or_region.strip() 
        tv_item['first_time'] = first_time.strip()
        tv_item['series'] = series.strip()
        tv_item['single'] = single.strip()
        tv_item['rate'] = rate.strip()
        tv_item['votes_num'] = votes_num.strip()
        tv_item['synopsis'] = synopsis

        print('电视剧信息>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>')
        print('剧名：' + title)
        print('又名：' + alias)
        print('海报：' + tv_img)
        print('导演：' + director)    
        print('主演：' + actors)       
        print('类型：' + tv_type)     
        print('制片国家或地区：' + country_or_region)
        print('首播：' + first_time)
        print('集数：' + series)
        print('单集时长：' + single)
        print('评分：' + rate)
        print('评分人数：' + votes_num)
        print('简介：' + synopsis)

然后整整二十部电视剧的简介疯狂刷屏：
电视剧刷屏
虽然经历了一番腰酸背痛，头眼昏花，问题好歹是解决了。

个人微信公众号

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫毕业设计

python

爬虫毕设（三）：爬取动态网页的相关文章

如何替换 Pandas Dataframe 中不在列表中的所有值？ [复制]

这个问题在这里已经有答案了我有一个值列表如何替换 Dataframe 列中不在给定值列表中的所有值例如 gt gt gt df pd DataFrame D ND D garbage columns S gt gt gt df S 0
如何传递架构以从现有数据帧创建新数据帧？

要将 schema 传递到 json 文件我们这样做 from pyspark sql types import StructField StringType StructType IntegerType data schema Stru
如何在 __init__ 中使用await设置类属性

我如何定义一个类await在构造函数或类体中例如我想要的 import asyncio some code class Foo object async def init self settings self settings setti
多输出堆叠回归器

一次性问题我正在尝试构建一个多输入堆叠回归器添加到 sklearn 0 22 据我了解我必须结合StackingRegressor and MultiOutputRegressor 经过多次尝试这似乎是正确的顺序 import nu
VSCode Settings.json 丢失

我正在遵循教程并尝试将 vscode 指向我为 Scrapy 设置的虚拟工作区但是当我在 VSCode 中打开设置时工作区设置选项卡不在用户设置选项卡旁边我还尝试通过以下方式手动转到文件 APPDATA Code User s
Django Rest Framework 是否有第三方应用程序来自动生成 swagger.yaml 文件？

我有大量的 API 端点编写在django rest framework并且不断增加和更新如何创建和维护最新的 API 文档我当前的版本是 Create swagger yaml文件并以某种方式在每次端点更改时自动生成然后使用此文件作
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
Pycharm 在 os.path 连接上出现“未解析的引用”

将pycharm升级到2018 1 并将python升级到3 6 5后 pycharm报告未解析的引用 join 最新版本的 pycharm 不会显示以下行的任何警告 from os path import join expanduser
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
从 Powershell 脚本安装 Python

当以管理员身份从 PowerShell 命令行运行以下命令时可以在 Windows 11 上成功安装 Python c temp python 3 11 4 amd64 exe quiet InstallAllUsers 0 Instal
Java 和 Python 可以在同一个应用程序中共存吗？

我需要一个 Java 实例直接从 Python 实例数据存储中获取数据我不知道这是否可能数据存储是否透明唯一或者每个实例如果它们确实可以共存都有其单独的数据存储总结一下 Java 应用程序如何从 Python 应用程序的数据存
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
pandas - 包含时间序列数据的堆积条形图

我正在尝试使用时间序列数据在 pandas 中创建堆积条形图 DATE TYPE VOL 0 2010 01 01 Heavy 932 612903 1 2010 01 01 Light 370 612903 2 2010 01 01 Me
python 中的“槽包装器”是什么？

object dict 和其他地方的隐藏方法设置为这样的
制作一份 Python 文档的 PDF 文件

Python 官方网站提供 PDF 文档下载但它们是按章节分隔的我下载了源代码并构建了 PDF 文档这些文档也是单独的 PDF 我怎么能够从源代码中的 Makefile 构建一个 PDF 文件我认为这样阅读起来会更方便如果连接单独
Firebase Firestore：获取文档的生成 ID (Python)

我可以创建一个新文档带有自动生成的 ID 并存储对其的引用如下所示 my data key value doc ref db collection u campaigns add my data 我可以像这样访问数据本身 print d
根据 Pandas 中的列表选择数据框行的子集

我有一个数据框df1并列出x In 22 import pandas as pd In 23 df1 pd DataFrame C range 5 B range 10 20 2 A list abcde In 24 df1 Out 24
如何使用 PrimaryKeyRelatedField 更新多对多关系上的类别

Django Rest 框架有一个主键相关字段 http www django rest framework org api guide relations primarykeyrelatedfield其中列出了我的 IDmany to m
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是

随机推荐

C语言系列：2、数据类型、运算符和表达式

C语言系列 2 数据类型运算符和表达式文章目录 C语言系列 2 数据类型运算符和表达式 1 前言 2 变量名 3 数据类型和长度 3 1 基本数据类型 3 2 short和long限定符 3 3 signed 与unsigned限定符
（三）运行微信小程序：在主页加入扫码组件

制作了多个页面后我们试图在小程序中添加些其他功能比如实现扫码功能 1 在二维码生成网站上生成一张二维码或条形码照片百度二维码生成即可找到生成网站这里我们使用 2023你好吗数字加文字的形式生成如下二维码并保存到本地供后续
OpenCV获取摄像头编号及名称

欢迎使用Markdown编辑器你好这是你第一次使用 Markdown编辑器所展示的欢迎页如果你想学习如何使用Markdown编辑器可以仔细阅读这篇文章了解一下Markdown的基本语法知识方法 OpenCV的VideoCapt
Github 项目托管

为了方便代码的管理可以使用 github 来托管我们的项目把每次更新的代码放到 github 上还能够提高代码的共享性首先需要注册并登我们的 github 账号 https github com 新建仓库 New repository
DataPipeline如何实现数据质量管理

数据质量管理已经成为数据治理的重要组成部分高质量的数据是企业进行决策的重要依据 DataPipeline数据质量平台整合了数据质量分析质量校验质量监控等多方面特性以保证数据质量的完整性一致性准确性及唯一性帮助企业解决在数据集成
vue+webpack实现异步组件加载

8 9更新之前想搬迁到csdn的时候由于邀请码问题迟迟没把博客转过来所以跑去博客园了今天发现csdn已经帮我把文章搬过来有必要修正一下这篇文章写这篇文章的时候因为刚接触vue 所以捣鼓的时候有些迷糊以下可以跳过本来很简单的事情
Centos8 Failed to download metadata for repo ‘AppStream‘解决

1 这个问题主要原因是 CentOs Linux 8 从 2021 10 31 号后已经停止维护 CentOS 8 将不再从 CentOS 官方项目获得开发资源所以之后更新镜像需要通过 vault centos org来获取更新 2 进入
无向图的表示：邻接矩阵和邻接表

这里将一个无向图用邻接表和邻接矩阵表示输入顶底个数n 图中的各个边用两个顶点表示输出这个无线图的邻接矩阵和邻接表其中邻接表中的链接按元素大小升序排列先给出一个例子说明假设有无向图如下则其邻接矩阵和邻接表如提示框中所示其实
javaweb项目实战（附有源码)

这个代码是我做微信小程序的时候专门用java做的web项目主要是为前端提供接口便于前端调用数据如果有想要参考javaweb项目如何做的小伙伴可以到github上下载 github上有前端和后端代码在wiki上还有表结构和接口文档
VIM 点滴积累

删除列 1 光标定位到要操作的地方 2 CTRL v 进入可视块模式选取这一列操作多少行 3 d 删除插入列插入操作的话知识稍有区别例如我们在每一行前都插入 1 光标定位到要操作的地方 2 CTRL v 进入可视块模式
java stream SONObject和JSONArray操作

转自 https zhuanlan zhihu com p 36865573 1 取最后一条数据 stream对象存在方法findFirst 我们可以很方便的取到第一条数据但它却没有findLast方法需要取到最后一条数据我们可以将数
模型微调（Finetune）

参考 https zhuanlan zhihu com p 35890660 ppt下载地址 https github com jiangzhubo What is Fine tuning 一什么是模型微调给定预训练模型 Pre tra
IDDPM论文阅读

论文链接 Improved Denoising Diffusion Probabilistic Models 文章目录摘要引言去噪扩散概率模型定义实际训练对数似然改善可学习的
Linux-Shell技巧-参数化alias

shell脚本提供了改写命令方式 alias 但是alias改写常用的是直接改写方式比如如下操作 alias ll ls alt alias g gvim 但通常情况下有的明林需要传递参数或者用户可以自定义话一些常用的路径但有些文件
docker-/var/lib/docker数据迁移

docker默认目录是 var lib docker 位于系统盘上占用空间比较大计划迁移到新挂在的盘上第一步在新盘上创建文件夹 mkdir p data docker lib 第二步复制文件到新目录 rsync avz var l
数据结构与算法（二十）快速排序、堆排序(四)

数据结构与算法三软件设计十九 https blog csdn net ke1ying article details 129252205 排序分为稳定排序和不稳定排序内排序和外排序内排序指在内存里外排序指在外部存储空
electron-vue工程创建

创建工程创建一个工作文件夹用于存放所有Electron工程设为 D work 打开CMD cd到 D work 文件夹下然后执行命令创建 electron vue 工程创建过程会多次提示输入信息 vue init simulate
【2011集训队出题】Digit

Description 在数学课上小T又被老师发现上课睡觉了为了向全班同学证明小T刚才没有好好听课数学老师决定出一道题目刁难一下小T 如果小T答不出那么情节就按照俗套的路线发展下去了小T显然无法解决这么复杂的问题可怜的小T只能
联想拯救者系统重装？不求人教程

前阵子帮人重装了联想原装系统今天总结一下步骤造福那些想给女同志装联想原装系统而无从下手的工具人哈哈哈哈哈进入正题既然要重装系统就绕不开做启动盘要做一个玉洁冰清小声BB 纯净无插件的启动盘 U盘启动盘制作工具的选择就很关键
爬虫毕设（三）：爬取动态网页

动态网页分析按照上一篇的分析直接使用XPath找到该标签然后通过parse提取出数据在写入到item中就完事了但是当信心满满的写完代码后却发现控制台输入了一个简简单单的小问号你是否有很多朋友一顿操作猛如虎一看输出数据无

爬虫毕设（三）：爬取动态网页

动态网页分析

爬虫毕设（三）：爬取动态网页 的相关文章

随机推荐

热门标签

爬虫毕设（三）：爬取动态网页的相关文章