MySQL数据库的异步写入

2023-11-08

注意：数据库pymysql的commit()和execute()在提交数据时，都是同步提交至数据库，由于scrapy框架数据的解析和异步多线程的，所以scrapy的数据解析速度，要远高于数据的写入数据库的速度。如果数据写入过慢，会造成数据库写入的阻塞，影响数据库写入的效率。
通过多线程异步的形式对数据进行写入，可以提高数据的写入速度。

使用twsited异步IO框架，实现数据的异步写入。

代码中参数格式：*代表是元组，**代表是字典（固定写法！非自定义！）

示例代码：

在settings.py中配置数据库参数，如下图：

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

from scrapy.pipelines.images import ImagesPipeline
class JobbolePipeline(object):
    def process_item(self, item, spider):
        return item


# 定义处理图片的Pipeline
class ImagePipeline(ImagesPipeline):
    def item_completed(self, results, item, info):
        print('---',results)
        return item
        # 如果图片能够下载成功，说明这个文章是有图片的。如果results中不存在path路径，说明是没有图片的。
        # [(True, {'path': ''})]
        # if results:
        #     try:
        #         img_path = results[0][1]['path']
        #     except Exception as e:
        #         print('img_path获取异常，',e)
        #         img_path = '没有图片'
        # else:
        #     img_path = '没有图片'

        # 判断完成，需要将变量img_path重新保存到item中。


# 数据库pymysql的commit()和execute()在提交数据时，都是同步提交至数据库，由于scrapy框架数据的解析和异步多线程的，所以scrapy的数据解析速度，要远高于数据的写入数据库的速度。如果数据写入过慢，会造成数据库写入的阻塞，影响数据库写入的效率。
# 通过多线程异步的形式对数据进行写入，可以提高数据的写入速度。
from pymysql import cursors

# 使用twsited异步IO框架，实现数据的异步写入。
from twisted.enterprise import adbapi

class MySQLTwistedPipeline(object):
    """
        MYSQL_HOST = 'localhost'
        MYSQL_DB = 'jobbole'
        MYSQL_USER = 'root'
        MYSQL_PASSWD = '123456'
        MYSQL_CHARSET = 'utf8'
        MYSQL_PORT = 3306
    """
    def __init__(self, dbpool):
        self.dbpool = dbpool

    @classmethod
    def from_settings(cls, settings):
        params = dict(
            host=settings['MYSQL_HOST'],
            db=settings['MYSQL_DB'],
            user=settings['MYSQL_USER'],
            passwd=settings['MYSQL_PASSWD'],
            charset=settings['MYSQL_CHARSET'],
            port=settings['MYSQL_PORT'],
            cursorclass=cursors.DictCursor,
        )
        # 初始化数据库连接池(线程池)
        # 参数一：mysql的驱动
        # 参数二：连接mysql的配置信息
        dbpool = adbapi.ConnectionPool('pymysql', **params)
        return cls(dbpool)

    def process_item(self, item, spider):
        # 在该函数内，利用连接池对象，开始操作数据，将数据写入到数据库中。
        # pool.map(self.insert_db, [1,2,3])
        # 同步阻塞的方式： cursor.execute() commit()
        # 异步非阻塞的方式
        # 参数1：在异步任务中要执行的函数insert_db；
        # 参数2：给该函数insert_db传递的参数
        query = self.dbpool.runInteraction(self.insert_db, item)

        # 如果异步任务执行失败的话，可以通过ErrBack()进行监听, 给insert_db添加一个执行失败的回调事件
        query.addErrback(self.handle_error)

        return item

    def handle_error(self, field):
        print('-----数据库写入失败：',field)

    def insert_db(self, cursor, item):
        insert_sql = "INSERT INTO bole(title, date_time, tags, content, zan_num, keep_num, comment_num, img_src) VALUES (%s, %s, %s, %s, %s, %s, %s, %s)"
        cursor.execute(insert_sql, (item['title'], item['date_time'], item['tags'], item['content'], item['zan_num'], item['keep_num'], item['comment_num'], item['img_src']))

        # 在execute()之后，不需要再进行commit()，连接池内部会进行提交的操作。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

小点

python

scrapy爬虫

MySQL数据库异步写入

MySQL数据库的异步写入的相关文章

无法“安装”plpython3u - postgresql

我正在尝试在 postgresql 中使用 python 语言像这样的事情 create or replace function test a integer returns integer as if a 2 0 return even
使用 pythonbrew 编译 Python 3.2 和 2.7 时出现问题

我正在尝试使用构建多个版本的 python蟒蛇酿造 http pypi python org pypi pythonbrew 0 7 3 但我遇到了一些测试失败这是在运行的虚拟机上 Ubuntu 8 04 32 位当我使用时会发生这种情
没有名为 crypto.cipher 的模块

我现在正在尝试加密一段时间我最近得到了这个基于 python 的密码器名为PythonCrypter https github com jbertman PythonCrypter 我对 Python 相当陌生当我尝试通过终端打开 C
Python 中的 Lanczos 插值与 2D 图像

我尝试重新缩放 2D 图像灰度图像大小为 256x256 所需输出为 224x224 像素值范围从 0 到 1300 我尝试了两种使用 Lanczos 插值来重新调整它们的方法首先使用PIL图像 import numpy as np
将 saxon 与 python 结合使用

我需要使用 python 处理 XSLT 目前我正在使用仅支持 XSLT 1 的 lxml 现在我需要处理 XSLT 2 有没有办法将 saxon XSLT 处理器与 python 一起使用有两种可能的方法设置一个 HTTP 服务接受
将数据从 python pandas 数据框导出或写入 MS Access 表

我正在尝试将数据从 python pandas 数据框导出到现有的 MS Access 表我想用已更新的数据替换 MS Access 表在 python 中我尝试使用 pandas to sql 但收到错误消息我觉得很奇怪使用 p
将 Matplotlib 误差线放置在不位于条形中心的位置

我正在 Matplotlib 中生成带有错误栏的堆积条形图不幸的是某些层相对较小且数据多样因此多个层的错误条可能重叠从而使它们难以或无法读取 Example 有没有办法设置每个误差条的位置即沿 x 轴移动它以便重叠的线显示在彼此
OpenCV Python cv2.mixChannels()

我试图将其从 C 转换为 Python 但它给出了不同的色调结果 In C Transform it to HSV cvtColor src hsv CV BGR2HSV Use only the Hue value hue create
通过最小元素比较对 5 个元素进行排序

我必须在 python 中使用元素之间的最小比较次数来建模对 5 个元素的列表进行排序的执行计划除此之外复杂性是无关紧要的结果是一个对的列表表示在另一时间对列表进行排序所需的比较我知道有一种算法可以通过 7 次比较总是在元素之间
PyUSB 1.0：NotImplementedError：此平台不支持或未实现操作

我刚刚开始使用 pyusb 基本上我正在玩示例代码here https github com walac pyusb blob master docs tutorial rst 我使用的是 Windows 7 64 位并从以下地址下载 z
使用 on_bad_lines 将 pandas.read_csv 中的无效行写入文件

我有一个 CSV 文件我正在使用 Python 来解析该文件我发现文件中的某些行具有不同的列数 001 Snow Jon 19801201 002 Crom Jake 19920103 003 Wise Frank 19880303 l
如何替换 pandas 数据框列中的重音符号

我有一个数据框dataSwiss其中包含瑞士城市的信息我想用普通字母替换带有重音符号的字母这就是我正在做的 dataSwiss Municipality dataSwiss Municipality str encode utf 8 d
根据列值突出显示数据框中的行？

假设我有这样的数据框 col1 col2 col3 col4 0 A A 1 pass 2 1 A A 2 pass 4 2 A A 1 fail 4 3 A A 1 fail 5 4 A A 1 pass 3 5 A A 2 fail 2
如何从网页中嵌入的 Tableau 图表中抓取工具提示值

我试图弄清楚是否有一种方法以及如何使用 python 从网页中的 Tableau 嵌入图形中抓取工具提示值以下是当用户将鼠标悬停在条形上时带有工具提示的图表示例我从要从中抓取的原始网页中获取了此网址 https covid19 colo
从 Flask 访问 Heroku 变量

我已经使用以下命令在 Heroku 配置中设置了数据库变量 heroku config add server xxx xxx xxx xxx heroku config add user userName heroku config add
Flask如何获取请求的HTTP_ORIGIN

我想用我自己设置的 Access Control Allow Origin 标头做出响应而弄清楚请求中的 HTTP ORIGIN 参数在哪里似乎很混乱我在用着烧瓶 0 10 1 以及HTTP ORIGIN似乎是这个的特点之一object
Pandas：merge_asof() 对多行求和/不重复

我正在处理两个数据集每个数据集具有不同的关联日期我想合并它们但因为日期不完全匹配我相信merge asof 是最好的方法然而有两件事发生merge asof 不理想的数字重复数字丢失以下代码是一个示例 df a pd Da
将图像分割成多个网格

我使用下面的代码将图像分割成网格的 20 个相等的部分 import cv2 im cv2 imread apple jpg im cv2 resize im 1000 500 imgwidth im shape 0 imgheight i
NotImplementedError：无法将符号张量 (lstm_2/strided_slice:0) 转换为 numpy 数组。时间

张量流版本 2 3 1 numpy 版本 1 20 在代码下面 define model model Sequential model add LSTM 50 activation relu input shape n steps n fe
Statsmodels.formula.api OLS不显示截距的统计值

我正在运行以下源代码 import statsmodels formula api as sm Add one column of ones for the intercept term X np append arr np ones 50

随机推荐

点云库PCL学习笔记 -- 输入输出IO -- 6.PCL中记录时间长度TicToc 类和系统Time 类

点云库PCL学习笔记输入输出IO 6 PCL中记录时间长度TicToc 类和系统Time 类 PCL库中用于记录时间长度的方法第一种 TicToc 类的方法添加头文件 include
pytorch（仅供自己参考勿看）

一安装Anaconda 下载pytorch前最好先安装Anaconda 可以按照以下方法下载 https blog csdn net weixin 50888378 article details 109022585 二安装pytorc
如何提高for循环的效率--兆易创新一面

1 实例化变量放在循环外 include
使用Lubuntu开发Android应用

之前下了个ubuntu来编译Android源码并且开发App 后来发现桌面环境不太好用而且32位Linux不能顺利编译Android源码最近有空便重新下载Lubuntu 64位并配置好所有配置其间颇多不顺特记录下来通过下面的步骤连
8.1数据结构作业

include
vue后台管理系统之日志管理模块

前端的后台的日志管理模块功能的实现使用的是elementUI框架这是日志管理模块实现的效果图 div class log header div div div
error C2220: warning treated as error - no object file generated的处理方法

很久以前在win2k DDK写的一个驱动居然在2003ddk下编译不过去真是奇怪环境变量改为win2k 也不行先是error C2220 warning treated as error no object file generat
基于centos开发的server系统单机部署gp（rpm）

1 下载安装包 rpm deb或源码打开greenplum官网https github com greenplum db gpdb releases 下载安装包或Greenplum Database Greenplum Database
一个公式告诉你为什么程序员要转算法工程师

原来的标题是算法工程师工资调查 20170611 今天 2017年6月11日爬了某招聘网站的十大城市的算法工程师职位算法工程师这里的算法工程师包括比较广泛有做数据科学的有做图形的有做信号处理的之后会统计更细分的领域十大城市
核酸预约地址查询结果查询小程序

核酸检测报告结果查询核酸检测核酸检测预约核酸核酸检测查询核酸检测报告核酸检测结果核酸检测地址导航检测核酸检测报告结果查询核酸检测核酸检测预约核酸核酸检测查询核酸检测报告核酸检测结果核酸检测地址导航检测核酸
Go官方库RPC开发指南

Go官方提供了一个RPC库 net rpc 包rpc提供了通过网络访问一个对象的方法的能力服务器需要注册对象通过对象的类型名暴露这个服务注册后这个对象的输出方法就可以远程调用这个库封装了底层传输的细节包括序列化服务器可以注册多个
【多种优化算法比较】混沌引力搜索算法（CGSA）（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文献 1 概述文献来源自过去十年以来启发式优化算法
链表中环的入口结点--LeetCode第142题

给一个链表若其中包含环请找出该链表的环的入口结点否则输出null 题解快慢指针法快指针一次走两步慢指针一次走一步当快慢指针第一次相遇此时 2 x y n圈周长 x y 相遇以后快指针回到head和慢指针以同样速度每次走一步
【springboot】yml的配置与获取数据：

一 yml的配置二获取yml的配置数据
js工厂方法模式

h1 给我一张名片工厂方法模式 h1 p 工厂方法模式 Factory Method 通过对产品类的抽象使其创建业务主要负责用于创建多类产品的实例 p p 工厂方法模式本意是说将实际创建对象工作推迟到子类中这样核心类就成了抽象类 Jav
R手册(NLP)--text2vec

文章目录分词器 I O 处理迭代器支持 create 函数向量化主题模型 text2vec 这个 R 包提供了高性能和简洁的 API 来进行文本分析自然语言处理分词器 word tokenizer strings 英语分词器
如何从文件最后一行开始读取文件内容

import java io import java util ArrayList 镜像图像 public class Solution public static void main String args throws Exceptio
adworld-EasyRE

1 拿到exe文件扔到exeinfo里面看一下发现是32位无壳 2 扔到IDA里面通过 shift F12 找字符串发现 right 双击跟过去发现sub 401080调用了这个字符串跟过去 F5反编译对于23行到30行的代码
nodejs(7)---中间件的使用

中间件相当于过滤器模式当前端发送信息到后端的时候先经过中间件进行验证信息再到后台调用接口获取数据我们看看node中中间件怎么使用一个中间件的完整形式是这样的 function demo middleware err req res
MySQL数据库的异步写入

注意数据库pymysql的commit 和execute 在提交数据时都是同步提交至数据库由于scrapy框架数据的解析和异步多线程的所以scrapy的数据解析速度要远高于数据的写入数据库的速度如果数据写入过慢会造成数据库写入

MySQL数据库的异步写入

MySQL数据库的异步写入 的相关文章

随机推荐

热门标签

MySQL数据库的异步写入的相关文章