Python 3 asyncio 与 aioboto3 似乎是连续的

2023-11-25

我正在将一个简单的 python 3 脚本移植到 AWS Lambda。该脚本很简单：它从十几个 S3 对象收集信息并返回结果。

使用的脚本multiprocessing.Pool并行收集所有文件。尽管multiprocessing不能在 AWS Lambda 环境中使用，因为/dev/shm不见了。所以我想与其写脏话multiprocessing.Process / multiprocessing.Queue更换，我会尝试asyncio反而。

我正在使用最新版本aioboto3(8.0.5) 在 Python 3.8 上。

我的问题是，我似乎无法在文件的天真顺序下载和异步事件循环复用下载之间获得任何改进。

这是我的代码的两个版本。

import sys
import asyncio
from concurrent.futures import ThreadPoolExecutor, ProcessPoolExecutor

import boto3
import aioboto3

BUCKET = 'some-bucket'
KEYS = [
    'some/key/1',
    [...]
    'some/key/10',
]

async def download_aio():
    """Concurrent download of all objects from S3"""
    async with aioboto3.client('s3') as s3:
        objects = [s3.get_object(Bucket=BUCKET, Key=k) for k in KEYS]
        objects = await asyncio.gather(*objects)
        buffers = await asyncio.gather(*[o['Body'].read() for o in objects])

def download():
    """Sequentially download all objects from S3"""
    s3 = boto3.client('s3')
    for key in KEYS:
        object = s3.get_object(Bucket=BUCKET, Key=key)
        object['Body'].read()

def run_sequential():
    download()

def run_concurrent():
    loop = asyncio.get_event_loop()
    #loop.set_default_executor(ProcessPoolExecutor(10))
    #loop.set_default_executor(ThreadPoolExecutor(10))
    loop.run_until_complete(download_aio())

两者的时间安排run_sequential() and run_concurrent()非常相似（十几个 10MB 文件大约需要 3 秒）。我确信并发版本不是，原因有多种：

我尝试切换到Process/ThreadPoolExecutor，并且我在函数持续时间内生成了进程/线程，尽管它们什么也没做
顺序和并发之间的时序非常接近，尽管我的网络接口绝对没有饱和，并且CPU也没有绑定
并发版本所花费的时间随着文件数量的增加而线性增加。

我确信缺少了一些东西，但我就是无法弄清楚到底缺少什么。

有任何想法吗？

在花费了几个小时试图了解如何使用之后aioboto3正确的是，我决定切换到我的备份解决方案。我最终推出了我自己的幼稚版本multiprocessing.Pool用于在 AWS lambda 环境中使用。

如果将来有人偶然发现这个线程，就在这里。它远非完美，但很容易更换multiprocessing.Pool对于我的简单案例来说按原样。

from multiprocessing import Process, Pipe
from multiprocessing.connection import wait


class Pool:
    """Naive implementation of a process pool with mp.Pool API.

    This is useful since multiprocessing.Pool uses a Queue in /dev/shm, which
    is not mounted in an AWS Lambda environment.
    """

    def __init__(self, process_count=1):
        assert process_count >= 1
        self.process_count = process_count

    @staticmethod
    def wrap_pipe(pipe, index, func):
        def wrapper(args):
            try:
                result = func(args)
            except Exception as exc:  # pylint: disable=broad-except
                result = exc
            pipe.send((index, result))
        return wrapper

    def __enter__(self):
        return self

    def __exit__(self, exc_type, exc_value, exc_traceback):
        pass

    def map(self, function, arguments):
        pending = list(enumerate(arguments))
        running = []
        finished = [None] * len(pending)
        while pending or running:
            # Fill the running queue with new jobs
            while len(running) < self.process_count:
                if not pending:
                    break
                index, args = pending.pop(0)
                pipe_parent, pipe_child = Pipe(False)
                process = Process(
                    target=Pool.wrap_pipe(pipe_child, index, function),
                    args=(args, ))
                process.start()
                running.append((index, process, pipe_parent))
            # Wait for jobs to finish
            for pipe in wait(list(map(lambda t: t[2], running))):
                index, result = pipe.recv()
                # Remove the finished job from the running list
                running = list(filter(lambda x: x[0] != index, running))
                # Add the result to the finished list
                finished[index] = result

        return finished

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

amazonwebservices

asyncawait

pythonasyncio

Python 3 asyncio 与 aioboto3 似乎是连续的的相关文章

matplotlib 图中点的标签

所以这是一个关于已发布的解决方案的问题我试图在我拥有的 matplotlib 散点图中的点上放置一些数据标签我试图在这里模仿解决方案是否有与 MATLAB 的 datacursormode 等效的 matplotlib https s
多输出堆叠回归器

一次性问题我正在尝试构建一个多输入堆叠回归器添加到 sklearn 0 22 据我了解我必须结合StackingRegressor and MultiOutputRegressor 经过多次尝试这似乎是正确的顺序 import nu
从Django中具有外键关系的两个表中检索数据？ [复制]

这个问题在这里已经有答案了 This is my models py file from django db import models class Author models Model first name models CharFie
Pycharm 在 os.path 连接上出现“未解析的引用”

将pycharm升级到2018 1 并将python升级到3 6 5后 pycharm报告未解析的引用 join 最新版本的 pycharm 不会显示以下行的任何警告 from os path import join expanduser
如何使用 Selenium 和 ChromeDriver 解决 TypeError: 'module' object is not callable 错误 [重复]

这个问题在这里已经有答案了代码试验 from selenium import webdriver from selenium webdriver chrome options import Options as Chromeoptions
Amazon S3 - 每个子域有 1 个存储桶和一个文件夹？

我需要创建一项服务允许用户在自定义子域中发布静态页面我从来没有这样做过所以如果这个问题听起来有点太基本了请原谅我为此我希望将所有这些静态文件托管在 Amazon S3 或 Google 云存储等中以将其与我的服务器分开使其可
无法导入 langchain.agents.load_tools

我正在尝试使用 LangChain Agents 但无法导入 load tools 版本 langchain 0 0 27 我尝试过这些 from langchain agents import initialize agent from
未知错误：Chrome 无法启动：异常退出

当我使用 chromedriver 对 Selenium 运行测试时出现此错误 selenium common exceptions WebDriverException Message unknown error Chrome fail
如何将 ascii 值列表转换为 python 中的字符串？

我在 Python 程序中有一个列表其中包含一系列数字这些数字本身就是 ASCII 值如何将其转换为可以在屏幕上回显的常规字符串您可能正在寻找 chr gt gt gt L 104 101 108 108 111 44 32 1
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
AWS - 有没有办法“挂钩”第一次创建联合身份的时间？

我有一个 Cognito 身份池用于对我的前端用户进行身份验证并在我的应用程序中授予他们某些权限但是我在授予这些用户访问 IoT 的权限时遇到了问题其中涉及调用 Lambda 调用iot addPrincipalPolicy 一旦
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该
Protobuf 如何编码 oneof 消息结构

对于这个 python 程序在编码时运行 protobuf 编码会给出以下输出 0a 10 08 7f8a 0104 08 02 10 0392 0104 08 02 10 03 18 01 我不明白的是为什么8a后面有一个01 为什么9
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
每当使用 import cv2 时 OpenCV 都会出错

我在终端上使用 pip3 install opencv contrib python 安装了 cv2 并且它工作了但是每当我尝试导入 cv2 或运行导入了 cv2 的 vscode 文件时在 python IDLE 上它都会说 Trac
如何将 Django 中的权限添加到模型并使用 shell 进行测试

我在模型中添加了 Meta 类并同步了数据库然后在 shell 中创建了一个对象它返回 false 所以我真的无法理解错误在哪里或者缺少什么是否在其他文件中可能存在某种配置 class Employer User Employer in
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS
如何在Python脚本中从youtube-dl中提取文件大小？

我是 python 编程新手我想在下载之前提取视频音频大小任何 YouTube 视频 gt gt gt from youtube dl import YoutubeDL gt gt gt url https www youtube c

随机推荐

jQuery.ajax 中是否弃用 success 参数？

今天我听说 jQuery ajax 函数中的 success Parameter 已被弃用我理解正确吗或者我误解了什么例如这在将来将不起作用 ajax url ax comment php type POST data mode v
JPA getSingleResult() 或 null

我有一个insertOrUpdate方法插入一个Entity当它不存在时或更新它如果存在为了实现这一点我必须findByIdAndForeignKey 如果它返回null如果没有则插入然后更新问题是如何检查它是否存在所以我尝试了
T-SQL IsNumeric() 和 Linq-to-SQL

我需要从数据库中找到满足特定格式约定的最高值具体来说我想找到看起来像的最高值 EU999999 9 是任意数字 select max col 将返回类似 EUZ 的内容例如我想排除的内容以下查询可以解决问题但我无法通过 Linq
Haskell QuickCheck2 使用 ByteString？

RWH 书籍说要获得 ByteString 支持我需要添加 instance Arbitrary B ByteString where arbitrary fmap B pack arbitrary coarbitrary coarbit
使用 Roxygen 在 NAMESPACE 中制作 S3method

我想使用 roxygen2 导出一个名为 myclass 的 S3 方法但我看不到一个干净的方法来执行此操作我需要 NAMESPACE 才能拥有 S3method myclass 或者在我需要包后无法使用该方法但 roxygen2 似
用于语言和文化感知软件的术语

我一直认为术语国际化和本地化以及它们有趣的缩写 i18n 和 l10n 被普遍接受并用于谈论意识到语言和文化差异的软件但我最近读到了一个关于这些主题的问题其中提到了全球化并且也被标记为全球化因为我之前没有听说过这个术语
接受 QGraphicsScene 上的放置

我正在尝试实现拖放QGraphicsScene 以下是我超载的事件 void TargetScene dragEnterEvent QGraphicsSceneDragDropEvent event bool acceptDrag fals
使用 virtualenv 安装 django1.7 和 Python 3.4

关于使用配置为 Python 3 4 的 virtualenv 设置 django 1 7 我遇到了一些困难我使用以下命令创建了一个 Python 3 4 virtualenv sudo virtualenv no site packag
Galaxy S 和 Galaxy S2 的最小宽度

我正在开发一个 Android Widget 需要区分Galaxy S and Galaxy S2 我几乎阅读了所有有关屏幕尺寸和密度的文章当然我需要将新的限定符与新的限定符一起使用最小宽度我的问题是 sw320dp 预选赛与 Gal
单值 Mysqli [重复]

这个问题在这里已经有答案了我正在尝试编写一个函数该函数将使用 mysqli 检查数据库中的单个值而不必将其放入数组中除了我已经在这里做的事情之外我还能做什么 function getval query mysqli new mys
如何从 Java 获取连接到 Websphere MQ 队列的消费者数量

我正在尝试从 Java 获取特定 Websphere MQ 队列的使用者数量我需要知道在将消息放入队列之前是否有人会使用它们首先值得注意的是所提出的设计是一个非常非常糟糕的设计效果是将异步消息传递回同步消息传递这将消息生产者与消
Braintree Drop-in UI：错误：无法解析：org.jfrog.cardinalcommerce.gradle：cardinalmobilesdk：2.2.1-2？

I am integrating Braintree Drop in UI but my project is not getting compiled I have used below dependency implementation
验证来自多个来源的令牌（例如 Cognito 和 Azure）

我们正在开发一个 API 允许用户通过多个不同的提供商进行身份验证单独的提供商不是问题但将它们一起使用却被证明是一个挑战似乎添加超过 1 个提供商会引发InvalidOperationException应用程序启动时显示方案已存在
我是否误解了 LINQ to SQL .AsEnumerable()？

考虑这段代码 var query db Table Where t gt SomeCondition t AsEnumerable int recordCount query Count int totalSomeNumber query
Rails 3.1 资产管道 - 缺少公共/资产中的文件 - 为什么这不是默认值？

今天下午我将升级后的 Rails 2 3 x gt 3 1 rc4 应用程序部署到我们的测试环境后我们所有的样式表和 JavaScript 文件都返回 404 错误我们已将 rake asset precompile 任务添加到我们的部
如何使用 string.Substring(char, char) 代替 string.Substring(int, int)？

我制作了返回介于之间的字符串的扩展方法leftChar and rightChar public static string Substring this string This char leftChar char rightChar i
我需要什么权限才能从 Android 应用程序访问互联网？

运行我的应用程序时出现以下异常 java net SocketException Permission denied maybe missing INTERNET permission 如何解决权限缺失的问题 Add the INTERNE
设置断点并调试评估的 JavaScript

I am using client side JS to parse XML files and generate complex JS code to eval as a result Generating re usable funct
git-apply 或 git-am 应该得出相同的哈希值吗？

我想我错过了一些东西我的印象是 git 使用 SHA 1 哈希提交标识符意味着可以确定从其他人那里获得的该提交的补丁没有被更改进行我在我的机器上所做的测试显然姓名和电子邮件已更改 cd dogcatcher dogcatcher g
Python 3 asyncio 与 aioboto3 似乎是连续的

我正在将一个简单的 python 3 脚本移植到 AWS Lambda 该脚本很简单它从十几个 S3 对象收集信息并返回结果使用的脚本multiprocessing Pool并行收集所有文件尽管multiprocessing不能在 A

Python 3 asyncio 与 aioboto3 似乎是连续的

Python 3 asyncio 与 aioboto3 似乎是连续的 的相关文章

随机推荐

热门标签

Python 3 asyncio 与 aioboto3 似乎是连续的的相关文章