对于这个 I/O 密集型操作，为什么 asyncio 库比线程慢？

2024-01-14

我正在编写一个 python 程序，用于枚举网站的域名。例如，'a.google.com'。

首先，我使用了threading模块来执行此操作：

import string
import time
import socket
import threading
from threading import Thread
from queue import Queue

'''
enumerate a site's domain name like this:
1-9 a-z + .google.com
1.google.com
2.google.com
.
.
1a.google.com
.
.
zz.google.com

'''

start = time.time()
def create_host(char):
    '''
    if char is '1-9a-z'
    create char like'1,2,3,...,zz'
    '''
    for i in char:
        yield i
    for i in create_host(char):
        if len(i)>1:
            return False
        for c in char:
            yield c + i


char = string.digits + string.ascii_lowercase
site = '.google.com'


def getaddr():
    while True:
        url = q.get()
        try:
            res = socket.getaddrinfo(url,80)
            print(url + ":" + res[0][4][0])
        except:
            pass
        q.task_done()

NUM=1000  #thread's num
q=Queue()

for i in range(NUM):
    t = Thread(target=getaddr)
    t.setDaemon(True)
    t.start()

for host in create_host(char):
    q.put(host+site)
q.join()

end = time.time()

print(end-start)

'''
used time:
9.448670148849487
'''

后来我读了一本书，说在某些情况下协程比线程更快。所以，我重写了代码来使用asyncio:

import asyncio
import string
import time


start = time.time()
def create_host(char):
    for i in char:
        yield i
    for i in create_host(char):
        if len(i)>1:
            return False
        for c in char:
            yield c + i


char = string.digits + string.ascii_lowercase
site = '.google.com'

@asyncio.coroutine
def getaddr(loop, url):
    try:
        res = yield from loop.getaddrinfo(url,80)
        print(url + ':' + res[0][4][0])
    except:
        pass

loop = asyncio.get_event_loop()
coroutines = asyncio.wait([getaddr(loop, i+site) for i in create_host(char)])
loop.run_until_complete(coroutines)

end = time.time()

print(end-start)


'''
time 
120.42313003540039
'''

为什么是asyncio的版本getaddrinfo这么慢吗？我是否以某种方式滥用了协程？

首先，我无法重现与您在我的 Linux 机器上看到的性能差异几乎一样大的性能差异。我一直看到线程版本大约需要 20-25 秒，而线程版本大约需要 24-34 秒。asyncio版本。

现在，为什么是asyncio慢点？有几件事促成了这一点。首先，asyncio版本必须按顺序打印，但线程版本则不需要。打印是 I/O，因此可以在打印时释放 GIL。这意味着两个或更多线程可能会同时打印，尽管实际上这种情况可能不会经常发生，并且可能不会对性能产生太大影响。

其次，也是更重要的一点是，the asyncio的版本getaddrinfo实际上是只是打电话socket.getaddrinfo in a ThreadPoolExecutor https://hg.python.org/cpython/file/6d91c4f40ba1/Lib/asyncio/base_events.py#l461:

def getaddrinfo(self, host, port, *,
                family=0, type=0, proto=0, flags=0):
    if self._debug:
        return self.run_in_executor(None, self._getaddrinfo_debug,
                                    host, port, family, type, proto, flags)
    else:
        return self.run_in_executor(None, socket.getaddrinfo,
                                    host, port, family, type, proto, flags)

这是使用默认的ThreadPoolExecutor为了这，只有五个线程 https://hg.python.org/cpython/file/6d91c4f40ba1/Lib/asyncio/base_events.py#l40*:

# Argument for default thread pool executor creation.
_MAX_WORKERS = 5

对于这个用例来说，这远没有您想要的那么多并行性。为了让它表现得更像threading版本，你需要使用ThreadPoolExecutor有 1000 个线程，通过将其设置为默认执行器loop.set_default_executor:

loop = asyncio.get_event_loop()
loop.set_default_executor(ThreadPoolExecutor(1000))
coroutines = asyncio.wait([getaddr(loop, i+site) for i in create_host(char)])
loop.run_until_complete(coroutines)

现在，这将使行为更加等同于threading，但现实是你真的没有使用异步 I/O - 你只是使用threading使用不同的 API。所以你在这里能做的最好的就是与threading例子。

最后，您并没有在每个示例中真正运行等效的代码 -threading版本正在使用一个工作池，它们共享一个queue.Queue，而asyncioversion 正在为 url 列表中的每个项目生成一个协程。如果我做asyncio版本使用asyncio.Queue和协程池，除了删除打印语句和创建更大的默认执行器之外，我在两个版本中获得了基本相同的性能。这是新的asyncio code:

import asyncio
import string
import time
from concurrent.futures import ThreadPoolExecutor

start = time.time()
def create_host(char):
    for i in char:
        yield i
    for i in create_host(char):
        if len(i)>1:
            return False
        for c in char:
            yield c + i


char = string.digits + string.ascii_lowercase
site = '.google.com'

@asyncio.coroutine
def getaddr(loop, q):
    while True:
        url = yield from q.get()
        if not url:
            break
        try:
            res = yield from loop.getaddrinfo(url,80)
        except:
            pass

@asyncio.coroutine
def load_q(loop, q):
    for host in create_host(char):
        yield from q.put(host+site)
    for _ in range(NUM):
        yield from q.put(None)

NUM = 1000
q = asyncio.Queue()

loop = asyncio.get_event_loop()
loop.set_default_executor(ThreadPoolExecutor(NUM))
coros = [asyncio.async(getaddr(loop, q)) for i in range(NUM)]
loop.run_until_complete(load_q(loop, q))
loop.run_until_complete(asyncio.wait(coros))

end = time.time()

print(end-start)

以及每个的输出：

dan@dandesk:~$ python3 threaded_example.py
20.409344911575317
dan@dandesk:~$ python3 asyncio_example.py
20.39924192428589

但请注意，由于网络原因，存在一些变化。两者有时都会比这慢几秒钟。

* 注意，在Python 3.8及以上版本中，默认ThreadPoolExecutor创造min(32, os.get_cpu_count() + 4)线程。根据您的机器有多少个核心，这可能会导致创建足够的线程以提高性能asyncio为了更紧密地匹配threading例子。你必须测试一下才能看到。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

对于这个 I/O 密集型操作，为什么 asyncio 库比线程慢？的相关文章

Pycharm Python 控制台不打印输出

我有一个从 Pycharm python 控制台调用的函数但没有显示输出 In 2 def problem1 6 for i in range 1 101 2 print i end In 3 problem1 6 In 4 另一方面像
如何打印没有类型的defaultdict变量？

在下面的代码中 from collections import defaultdict confusion proba dict defaultdict float for i in xrange 10 confusion proba di
如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
更改自动插入 tkinter 小部件的文本颜色

我有一个文本框小部件其中插入了三条消息一条是开始消息一条是结束消息一条是在单位被摧毁时发出警报的消息我希望开始和结束消息是黑色的但被毁坏的消息参见我在代码中评论的位置插入小部件时颜色为红色我不太确定如何去做这件事我看
如何等到 Excel 计算公式后再继续 win32com

我有一个 win32com Python 脚本它将多个 Excel 文件合并到电子表格中并将其另存为 PDF 现在的工作原理是输出几乎都是 NAME 因为文件是在计算 Excel 文件内容之前输出的这可能需要一分钟如何强制工作簿计算值
SQL Alchemy 中的 NULL 安全不等式比较？

目前我知道如何表达 NULL 安全的唯一方法 SQL Alchemy 中的比较其中与 NULL 条目的比较计算结果为 True 而不是 NULL 是 or field None field value 有没有办法在 SQL Alchem
keras加载模型错误尝试将包含17层的权重文件加载到0层的模型中

我目前正在使用 keras 开发 vgg16 模型我用我的一些图层微调 vgg 模型拟合我的模型训练后我保存我的模型model save name h5 可以毫无问题地保存但是当我尝试使用以下命令重新加载模型时load mod
从列表中的数据框列中搜索部分字符串匹配 - Pandas - Python

我有一个清单 things A1 B2 C3 我有一个 pandas 数据框其中有一列包含用分号分隔的值某些行将包含与上面列表中的一项的匹配它不会是完美的匹配因为它在其中包含字符串的其他部分该列例如该列中的一行可能有哇这里
NameError：名称“urllib”未定义”

CODE import networkx as net from urllib request import urlopen def read lj friends g name fetch the friend list from Liv
python pandas 中的双端队列

我正在使用Python的deque 实现一个简单的循环缓冲区 from collections import deque import numpy as np test sequence np array range 100 2 resha
Abaqus 将曲面转化为集合

我一直试图在模型中找到两个表面的中心参见照片但未能成功它们是元素表面面查询中没有选项可以查找元素表面的中心只能查找元素集的中心找到节点集的中心也很好但是我的节点集没有出现在工具 gt 查询 gt 质量属性选项中而且我找不到
Geopandas 设置几何图形：MultiPolygon“等于 len 键和值”的 ValueError

我有 2 个带有几何列的地理数据框我将一些几何图形从 1 个复制到另一个这对于多边形效果很好但对于任何有效多多边形都会返回 ValueError 请指教如何解决这个问题我不知道是否如何为什么应该更改 MultiPolygon
如何将 PIL 图像转换为 NumPy 数组？

如何转换 PILImage来回转换为 NumPy 数组这样我就可以比 PIL 进行更快的像素级转换PixelAccess允许我可以通过以下方式将其转换为 NumPy 数组 pic Image open foo jpg pix numpy
为美国东部以外地区的 Cloudwatch 警报发送短信？

AWS 似乎没有为美国东部以外的 SNS 主题订阅者提供 SMS 作为协议我想连接我的 CloudWatch 警报并在发生故障时接收短信但无法将其发送到 SMS YES 经过一番挖掘后我能够让它发挥作用它比仅仅选择一个主题或输入闹钟
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
类型错误：只能使用标量值执行操作

如果您能让我知道如何为所提供的表格绘制一些信息丰富的图表我将不胜感激here https www iasplus com en resources ifrs topics use of ifrs 例如我需要一个名为国内非上市公司非上
Python：计算字典的重复值

我有一本字典如下 dictA unit1 test1 alpha unit1 test2 beta unit2 test1 alpha unit2 test2 gamma unit3 test1 delta unit3 test2 gamm
VSCode：调试配置中的 Python 路径无效

对 Python 和 VSCode 以及 stackoverflow 非常陌生直到最近我已经使用了大约 3 个月一切都很好当尝试在调试器中运行任何基本的 Python 程序时弹出窗口The Python path in your
如何使用google colab在jupyter笔记本中显示GIF？

我正在使用 google colab 想嵌入一个 gif 有谁知道如何做到这一点我正在使用下面的代码它并没有在笔记本中为 gif 制作动画我希望笔记本是交互式的这样人们就可以看到代码的动画效果而无需运行它我发现很多方法在 Goo
改变字典的哈希函数

按照此question https stackoverflow com questions 37100390 towards understanding dictionaries 我们知道两个不同的字典 dict 1 and dict 2例

随机推荐

其他属性的 Maven 密码加密

我想使用 Maven 的密码加密例如它用于 Mojo 属性的节点我尝试将加密密码粘贴到 mojo 的正确属性中但它将其视为纯文本我曾是hoping我可以在 Mojo 属性的注释上设置一个属性该属性可以解释它可以被加密如果可以则
如何从 C# 更新文件的更改时间？

文件可以有更改日期该日期与上次修改日期或上次访问日期不同更改日期通过 UI 或 NET API 不可见有两个 Win32 函数通过HandleEx获取文件信息 http msdn microsoft com en us library
如何从不同的进程向 GUI 中的槽发出信号？

语境在 Python 中主线程生成第二个进程使用多处理模块然后启动 GUI 使用 PyQt4 此时主线程会阻塞直到 GUI 关闭第二个进程始终处于处理状态理想情况下应以异步方式向 GUI 中的特定插槽发出信号问题 Pytho
从高山图像中捕获 SIGTERM

我试图从 docker 实例捕获 SIGTERM 信号基本上是在调用 docker stop 时但找不到方法因为我执行的每次尝试都有不同的结果以下是我的设置 Dockerfile FROM gitlab gitlab runner
Jasper 报告空白带仍然占用空间

我的问题是即使该行是空白的它仍然占用带子高度的空间因此在下一个带子之前有比平常更大的间隙我的 jasper 文件中的乐队如下所示
使用 Delphi Tokyo 10.2 通过 GetObjectProp 获取 TextSettings.Font.Style 属性

我使用Delphi的GetObjectProp函数来获取表单组件的属性我获取了几个组件的所有属性但是我无法获取TLabel等组件的TextSettings Font Style 粗体斜体属性例如我需要知道组件文本是粗体还是斜体我
.NET 4 缓存支持

我了解 NET 4 Framework 内置了缓存支持有谁有这方面的经验或者可以提供良好的资源来了解更多信息我指的是内存中对象主要是实体的缓存以及可能使用 System Runtime Caching 我假设你正在接近this
使用原点位于中心的椭圆 WPF

我有一个可以拖动旋转和调整大小的程序System Windows Shapes Ellipse in a Canvas panel 要调整椭圆的大小并将其拖动到画布内并始终保持其居中我需要每次纠正其原点因为椭圆的原点位于左上角有办法
AES 应该使用什么样的填充？

我已经实现了 AES 加密作业但我偶然发现了填充消息的问题如果我的消息是这样的字节数组 public byte encrypt byte message int size int Math ceil message length 16
合并两个已排序的链表

我想通过指针操作合并两个排序的链接列表但卡在了这一点找不到错误请帮帮我我认为问题出在 while 循环中我想让它节省空间并且不想再制作另一个列表 include
Activity 中是否需要任何代码，以便 ga_autoActivityTracking = true 适用于 Google Analytics V4

在 Google Analytics v3 中自动跟踪Activity 我们需要有 ga autoActivityTracking在manifest xml中标记 GA 代码在onStart and onStop 适用于 Android
Angular 代码味道“要么删除此导入，要么将其添加为依赖项。”当使用我编写的接口时。如何使我的代码合规？

我是 UI 开发的新手所以如果这不是有角度的请原谅我我在这里使用 Angular 8 和 typescript 无论如何我创建了一个弹出模式我不想在整个网站上使用它它看起来很棒但是当我像这样将它插入我的组件时 import I
如何在 iPhone 模拟器中测试相机？

有没有什么方法可以在模拟器中测试iPhone相机而无需在设备上部署这看起来非常乏味您必须在设备上测试许多特定于设备的功能但这并不比使用模拟器难只需为设备构建一个调试目标并将其连接到计算机即可需要实际设备的操作列表实际手机相机
ASP.Net MVC3 下拉列表和传递数据

我有这个控制器 public ActionResult Index IList
实例初始值设定项单元测试失败并显示“存储未定义”

生成示例应用程序后 ember new preloadtest cd preloadtest ember g instance initializer preload ember g model test data ember g rout
未捕获的引用错误：d3 未定义

我是 Web 开发新手我正在尝试将基于 D3 的 JS 可视化上传到 Weebly 域我已将所有必需的文件上传到我的 Weebly 站点并在 JavaScript 中正确引用了它们但在这一行中不断收到 Uncaught Refere
素数测试，2 位数字

我想打印所有两位数长的质数这是我的代码 for int input 11 input lt 99 input 2 for int x 2 x lt int Math sqrt input 1 x if input x 0 System o
检测 UISwipeGesture 后手指何时抬起[识别器]

我已经设置了一个UISwipeGestureRecognizer UISwipeGestureRecognizer swipe UISwipeGestureRecognizer alloc initWithTarget delegate a
如何撤消 git merge 挤压？

我刚刚做了一个 git merge squash feature branch into my develop branch 问题是上面的命令更新了头部而没有创建新的提交我的目的是创建一个单独的提交来应用于头部develop 简而言之日
对于这个 I/O 密集型操作，为什么 asyncio 库比线程慢？

我正在编写一个 python 程序用于枚举网站的域名例如 a google com 首先我使用了threading模块来执行此操作 import string import time import socket import thre

对于这个 I/O 密集型操作，为什么 asyncio 库比线程慢？

对于这个 I/O 密集型操作，为什么 asyncio 库比线程慢？ 的相关文章

随机推荐

热门标签

对于这个 I/O 密集型操作，为什么 asyncio 库比线程慢？的相关文章