使用scrapy和selenium结合爬取网易新闻内容

2023-10-31

代码结构

在这里插入图片描述

相关文件的代码

爬虫文件

# mid.py 爬虫文件
import scrapy
from middle.items import MiddleItem
from selenium import webdriver


class MidSpider(scrapy.Spider):
    name = 'mid'
    start_urls = ['https://news.163.com/']

    def __init__(self):
        # 以mid.py文件取相对路径
        self.bro = webdriver.Chrome(executable_path='../chromedriver_win32/chromedriver.exe')
        self.models_url = []

    # 进行首页的数据解析，获取目标模块的超链
    def parse(self, response):
        li_list = response.xpath('//div[@class="ns_area list"]/ul/li')
        # 存放目标模块的url
        models_url = []
        # 只爬取国内、国际两个个模块
        i_list = [2, 3]
        for i in i_list:
            # 获取url和模块名称
            url = li_list[i].xpath('./a/@href').extract_first()
            model = li_list[i].xpath('./a/text()').extract_first()
            # 创建item对象并保存模块名
            item = MiddleItem()
            item['model'] = model
            # 将五个目标模块存在列表中便于下载中间件进行拦截判断
            self.models_url.append(url)
            yield scrapy.Request(url, callback=self.parse_model, meta={'item': item})

    # 进行目标模块的数据解析，获取对应标题的url
    def parse_model(self, response):
        div_list = response.xpath('//div[@class="ndi_main"]/div')
        for div in div_list:
            url = div.xpath('.//div[@class="news_title"]/h3/a/@href').extract_first()
            # 获取上一层提交过来的item进行进一步数据的保存
            item = response.meta['item']
            yield scrapy.Request(url, callback=self.parse_detail, meta={'item': item})

    # 进行对应标题页面的数据解析，获取对应的正文内容
    def parse_detail(self, response):
        title = response.xpath('//h1[@class="post_title"]/text()').extract_first()
        if title is not None:
            # 处理非法字符
            title = title.replace(' ', '').replace('：', '').replace('？', '').replace('”', '').replace('"', '').replace('?', '')
        else:
            title = '标题'
        content = response.xpath('//div[@class="post_body"]//text()').extract()
        content = '\n'.join(content)
        # 获取上一层提交过来的item进行进一步数据的保存
        item = response.meta['item']
        item['title'] = title
        item['content'] = content
        # 将item提交给管道
        yield item

    # 覆写父类方法-关闭爬虫
    def close(self, spider, reason):
        # 关闭浏览器
        self.bro.quit()

item文件

# items.py 
import scrapy


class MiddleItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # 模块名称
    model = scrapy.Field()
    # 标题名称
    title = scrapy.Field()
    # 正文内容
    content = scrapy.Field()
    pass

中间件文件（由于只使用下载中间件，所以只贴出下载中间件的代码）

# middlewares.py 中间件文件
import random
from scrapy import signals
from scrapy.http import HtmlResponse
from itemadapter import is_item, ItemAdapter
from time import sleep


class MiddleDownloaderMiddleware:
    user_agents = [
        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60',
        'Opera/8.0 (Windows NT 5.1; U; en)',
        'Mozilla/5.0 (Windows NT 5.1; U; en; rv:1.8.1) Gecko/20061208 Firefox/2.0.0 Opera 9.50',
        'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; en) Opera 9.50',
        'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0',
        'Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10',
        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, like Gecko) Version/5.1.7 Safari/534.57.2 ',
        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36',
        'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
        'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16',
        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.101 Safari/537.36',
        'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko',
        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/2.0 Safari/536.11',
        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER',
        'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)',
        'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 Safari/535.11 SE 2.X MetaSr 1.0',
        'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SV1; QQDownload 732; .NET4.0C; .NET4.0E; SE 2.X MetaSr 1.0) ',
    ]
    
    # 拦截请求
    # 一般在此处进行UA伪装
    def process_request(self, request, spider):
        # 从设置好的UA池中随机设置一个
        request.headers['User-Agent'] = random.choice(self.user_agents)
        # Must either:
        return None

    # 拦截所有响应对象
    def process_response(self, request, response, spider):
        # 获取爬虫文件中实例化的浏览器对象
        bro = spider.bro
        # 由于该方法会拦截所有响应对象，而我们需要的数据不一定是动态加载的，不需要借用selenium进行额外处理
        # 因此需要进行判断，如果没有需要的数据，再借用selenium进行处理
        # 一个request对应一个response
        # 通过spider对象可以获取爬虫文件中的成员
        if request.url in spider.models_url:
            bro.get(request.url)
            sleep(3)
            page_text = bro.page_source
            # 对需要动态加载的数据进行篡改
            # 实例化一个response对象
            new_response = HtmlResponse(url=request.url, body=page_text, encoding='utf-8', request=request)
            return new_response
        # 如果不需要篡改则返回原先的response对象
        else:
            return response

管道文件

# pipelines.py 管道文件
from itemadapter import ItemAdapter
import os


class MiddlePipeline:
    def process_item(self, item, spider):
        # 进行持久化存储
        # 以mid.py文件取相对路径
        path = '../data/'
        if not os.path.exists(path):
            os.mkdir(path)
        path += str(item['model']) + '/'
        if not os.path.exists(path):
            os.mkdir(path)
        path += str(item['title']) + '.txt'
        with open(path, 'w', encoding='utf-8') as fp:
            fp.write(str(item['content']))
        return item

设置文件

# setting.py 
# 关闭robots协议
ROBOTSTXT_OBEY = False
# 设置日志等级
LOG_LEVEL = 'ERROR'
# 打开下载中间件
DOWNLOADER_MIDDLEWARES = {
   'middle.middlewares.MiddleDownloaderMiddleware': 543,
}
# 打开管道
ITEM_PIPELINES = {
   'middle.pipelines.MiddlePipeline': 300,
}

爬取结果

在这里插入图片描述

注意事项

1.运行mid.py文件进行爬取时，最好到spiders文件夹的路径下进行，因为浏览器驱动的读取和数据持久化存储是按照相对路径编写的。
2.浏览器驱动的版本不一定适用，如果发现不适应，下载一个对应版本替换掉目录下的chromedriver.exe即可。
3.该用法是和某站老师学的，但是发现老师的代码是存在一些问题的，并且为了进一步练习，自己写了一份，有任何问题欢迎私聊或者评论，不定时回复。
4.完整代码如有需要个人资源自取

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用scrapy和selenium结合爬取网易新闻内容的相关文章

Django 管理员在模型编辑时间歇性返回 404

我们使用 Django Admin 来维护导出到我们的一些站点的一些数据有时当单击标准更改列表视图来获取模型编辑表单而不是路由到正确的页面时我们会得到 Django 404 页面模板它是偶尔发生的我们可以通过重新加载三次来重现它
将 saxon 与 python 结合使用

我需要使用 python 处理 XSLT 目前我正在使用仅支持 XSLT 1 的 lxml 现在我需要处理 XSLT 2 有没有办法将 saxon XSLT 处理器与 python 一起使用有两种可能的方法设置一个 HTTP 服务接受
使 django 服务器可以在 LAN 中访问

我已经安装了Django服务器可以如下访问 http localhost 8000 get sms http 127 0 0 1 8000 get sms 假设我的IP是x x x x 当我这样做时从同一网络下的另一台电脑 my ip
Python（Selenium）：如何通过登录重定向/组织登录登录网站

我不是专业程序员所以请原谅任何愚蠢的错误我正在做一些研究我正在尝试使用 Selenium 登录数据库来搜索大约 1000 个术语我有两个问题 1 重定向到组织登录页面后如何使用 Selenium 登录 2 如何检索数据库在我解决
使用 matplotlib 绘制时间序列数据并仅在年初显示年份

rcParams date autoformatter month b n Y 我正在使用 matpltolib 来绘制时间序列如果我按上述方式设置 rcParams 则生成的图会在每个刻度处标记月份名称和年份我怎样才能将其设置为仅在每
Flask 会话变量

我正在用 Flask 编写一个小型网络应用程序当两个用户在同一网络下尝试使用应用程序时我遇到会话变量问题这是代码 import os from flask import Flask request render template
如何使用 Ansible playbook 中的 service_facts 模块检查服务是否存在且未安装在服务器中？

我用过service facts检查服务是否正在运行并启用在某些服务器中未安装特定的软件包现在我如何知道这个特定的软件包没有安装在该特定的服务器上service facts module 在 Ansible 剧本中它显示以下错误
根据列值突出显示数据框中的行？

假设我有这样的数据框 col1 col2 col3 col4 0 A A 1 pass 2 1 A A 2 pass 4 2 A A 1 fail 4 3 A A 1 fail 5 4 A A 1 pass 3 5 A A 2 fail 2
是否可以忽略一行的pyright检查？

我需要忽略一行的pyright 检查有什么特别的评论吗 def create slog group SLogGroup data Optional dict None SLog insert one SLog group group da
Python 函数可以从作用域之外赋予新属性吗？

我不知道你可以这样做 def tom print tom s locals locals def dick z print z name z name z guest Harry print z guest z guest print di
绘制方程

我正在尝试创建一个函数它将绘制我告诉它的任何公式 import numpy as np import matplotlib pyplot as plt def graph formula x range x np array x rang
如何在ipywidget按钮中显示全文？

我正在创建一个ipywidget带有一些文本的按钮但按钮中未显示全文我使用的代码如下 import ipywidgets as widgets from IPython display import display button wid
Flask如何获取请求的HTTP_ORIGIN

我想用我自己设置的 Access Control Allow Origin 标头做出响应而弄清楚请求中的 HTTP ORIGIN 参数在哪里似乎很混乱我在用着烧瓶 0 10 1 以及HTTP ORIGIN似乎是这个的特点之一object
每个 X 具有多个 Y 值的 Python 散点图

我正在尝试使用 Python 创建一个散点图其中包含两个 X 类别 cat1 cat2 每个类别都有多个 Y 值如果每个 X 值的 Y 值的数量相同我可以使用以下代码使其工作 import numpy as np import mat
如何在 Python 中追加到 JSON 文件？

我有一个 JSON 文件其中包含 67790 1 kwh 319 4 现在我创建一个字典a dict我需要将其附加到 JSON 文件中我尝试了这段代码 with open DATA FILENAME a as f json obj js
有没有办法检测正在运行的代码是否正在上下文管理器内执行？

正如标题所述有没有办法做到这样的事情 def call back if called inside context print running in context else print called outside context 这将
Conda SafetyError：文件大小不正确

使用创建 Conda 环境时conda create n env name python 3 6 我收到以下警告 Preparing transaction done Verifying transaction SafetyError Th
如何使用 Pycharm 安装 tkinter？ [复制]

这个问题在这里已经有答案了 I used sudo apt get install python3 6 tk而且效果很好如果我在终端中打开 python Tkinter 就可以工作但我无法将其安装在我的 Pycharm 项目上 pip
如何将输入读取为数字？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动 Why are x and y下面的代码中使用字符串而不是整数注意在Python 2
NotImplementedError：无法将符号张量 (lstm_2/strided_slice:0) 转换为 numpy 数组。时间

张量流版本 2 3 1 numpy 版本 1 20 在代码下面 define model model Sequential model add LSTM 50 activation relu input shape n steps n fe

随机推荐

Uformer: A General U-Shaped Transformer for Image Restoration阅读笔记

Abstract 构建一个分层的编码解码器并使用Transformer block进行图像恢复 Uformer两个核心设计 1 local enhanced window Transformer block 使用非重叠窗口自注意力降低计
js 密码正则表达式(至少8位且必有数字+特殊字符+字母)

正则 var reg A Za z d lt gt A Za z d lt gt 8 可用 test 方法验证 reg test value 参考 js正则验证特殊字符 summer7310 博客园正则表达式密码必须至少包含八个字符至
《人工智能》知识总结

知识图谱表示法 1 知识图谱主要用于智能搜索智能问答个性化推荐多维导航内容分发等领域 2 语义网络更侧重于表示概念与概念之间的关系知识图谱更侧重于表示实体与实体之间的关系 3 已有图谱作用于实体发现扩充新的知识图谱 4 知识图
Map之TreeMap

我们先不谈TreeMap我们来直接聊聊HashMap 首先当我们用HashMap存储数据的时候我们要如何将给出的数据排序呢这是一个问题那么TreeMap本身是支持排序的是对key进行的排序但是需要用户定义实现排序主要有两种方法
使用智星云stable diffusion创建ai创意绘画

目录租赁选择控制台参数选择下载图片结束租用租赁选择选择完以后下面会列出可用的显卡型号选择对应需要的就可以 2080ti 1080ti都能跑只不过显存越大的卡能画的图越大速度也越快点击租用用默认值即可然后创建实例
弱电人要学习的网络安全基础知识

提到网络安全一般人们将它看作是信息安全的一个分支信息安全是更加广义的一个概念防止对知识事实数据或能力非授权使用误用篡改或拒绝使用所采取的措施说白了信息安全就是保护敏感重要的信息不被非法访问获取以及用来进步做非法的事情
html搜索区域选择框,带搜索过滤功能的jQuery国家地区选择下拉框插件

nicecountryinput js是一款带搜索过滤功能的jQuery国家地区选择下拉框插件该下拉框插件通过简单的代码就可以实现所有国家和地区的选择下拉框并且可以通过搜索框对国家地区名称进行搜索使用方法在页面中引入jquery m
ENVI 混合像元分解

一混合像元分解的过程在影像已经完成预处理的前提下如几何校正大气校正去噪等混合像元分解的一般的过程首先获取端元波谱从图像上波谱库中或者其他来源然后选择一种分解模型在每个像素中获取每个端元波谱的相对丰度图最后从丰度图上提取
3. Flutter——HTTP请求

dio数据请求 HTTP 添加依赖 dependencies dio 1 0 9 版本 get 请求 import package dio dio dart Dio dio new Dio var response await dio ge
Vue-element-admin在左上角添加LOGO的方法

本文主要是分享一下思路的如不想看可以直接跳到最后做项目时有一个在左上角添加logo的需求但是element admin貌似没有添加logo的位置于是我先在页面中检查侧边栏发现它是sidebar container类于是我在vsc
eclipse中使用log4j2在控制台输出彩色日志

目录一 eclipse中安装Ansi Console 二在log4j2配置文件中配置颜色样式三在log4j2 component properties 配置文件中启用颜色配置四附上log4j2配置文件 1 log4j2 xml
left join 连表问题解析：on后多条件无效 & where与on的区别

在项目中用到多表联合查询发现2个现象今天解决这2个疑问 1 left join连接2张表 on后的条件第一个生效用and连接的其他条件不生效 2 一旦加上where 则显示的结果等同于inner join 先写结论过滤条件放在 wh
停止一下或多个进程以继续安装 vmware-vmx.exe 问题解决

1 起因用vmware大虚拟机做大数据集群经常出现某个虚拟机起不来还导致vmware无法关闭提示某某虚拟机繁忙经网友提示升级到15 pro可以解决事实证明无效最后的解决办法是手动复制虚拟机文件在配置文件中注释uid 然后用虚
Java中的多态调用问题，下面代码输出是什么？

转自 http www lvhongqiang com blog431 html 问题下面代码输出是什么 public class Test3 public static void main String args AAA a new B
Spring Boot项目中使用Logback日志与使用AOP拦截请求日志信息

日志记录了系统行为的时间地点等很多细节的具体信息在发生错误或者接近某种危险状态时能够及时提醒开发人员处理往往在系统产生问题时承担问题定位与诊断和解决的重要角色一般很多线上的问题只能通过进行日志分析才可以解决的所以需要明确日志在日常
【Android开发，极客时间资源共享

android divider f00 分割线的颜色 android dividerHeight 2dp 分割条的高度 android cacheColorHint 0fff 当列表使用背景图之后下拉或者上拉都会出现一个问题背景图不见了
针对热点数据的处理

针对热点数据的处理出现问题解决办法大体思路实现方式一 Spring Data Redis 前言项目要求 Redis中菜品缓存数据KEY的设计 dish 分类id 一导入依赖二添加缓存的代码例子三删除缓存实现方式二 Sp
PAT : 基础编程题目集_编程题答案(7-1 ~ 7-38)（纯C编写）

题目地址 7 1 include
Uncaught ReferenceError: __VUE_HMR_RUNTIME__ is not defined

Syntax Error Error vitejs plugin vue requires vue gt 3 2 13 or vue compiler sfc to be present in the dependency tree 第一步
使用scrapy和selenium结合爬取网易新闻内容

代码结构相关文件的代码爬虫文件 mid py 爬虫文件 import scrapy from middle items import MiddleItem from selenium import webdriver class Mid