为什么 itertools.chain 比扁平列表理解更快？

2024-04-28

在评论中的讨论中这个问题 https://stackoverflow.com/questions/49630581/why-does-python-forbid-the-use-of-sum-with-strings有人提到，虽然连接字符串序列只需要''.join([str1, str2, ...])，连接一系列列表就像list(itertools.chain(lst1, lst2, ...))，尽管您也可以使用列表理解，例如[x for y in [lst1, lst2, ...] for x in y]。令我惊讶的是，第一种方法始终比第二种方法快：

import random
import itertools

random.seed(100)
lsts = [[1] * random.randint(100, 1000) for i in range(1000)]

%timeit [x for y in lsts for x in y]
# 39.3 ms ± 436 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
%timeit list(itertools.chain.from_iterable(lsts))
# 30.6 ms ± 866 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
%timeit list(x for y in lsts for x in y)  # Proposed in comments
# 62.5 ms ± 504 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
# Loop-based methods proposed in the comments
%%timeit
a = []
for lst in lsts: a += lst
# 26.4 ms ± 634 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)
%%timeit
a = []
for lst in lsts: a.extend(lst)
# 26.7 ms ± 728 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

虽然不是一个数量级的差异，但也不容忽视。我想知道情况如何，因为列表理解通常是解决给定问题的最快方法之一。起初我以为也许itertools.chain对象会有一个len认为list构造函数可以用来预分配必要的内存，但事实并非如此（无法调用len on itertools.chain对象）。是一些定制的itertools.chain-to-list转换以某种方式发生或正在发生itertools.chain利用其他机制？

如果相关的话，已在 Windows 10 x64 上的 Python 3.6.3 中进行测试。

EDIT:

毕竟调用似乎是最快的方法.extend每个列表都有一个空列表，如建议的@zwer https://stackoverflow.com/users/7553525/zwer，可能是因为它适用于数据“块”，而不是基于每个元素。

Here is itertools.chain.from_iterable https://github.com/python/cpython/blob/aa0735f597b072c0eb00404c4d7df359ddc26755/Modules/itertoolsmodule.c#L1854。即使您不懂 C，它也不难阅读，并且您可以知道一切都发生在 C 级别（在用于在代码中生成列表之前）。

列表推导式的字节码如下所示：

def f(lsts):
    return [x for y in lsts for x in y]

dis.dis(f.__code__.co_consts[1])
  2           0 BUILD_LIST               0
              2 LOAD_FAST                0 (.0)
        >>    4 FOR_ITER                18 (to 24)
              6 STORE_FAST               1 (y)
              8 LOAD_FAST                1 (y)
             10 GET_ITER
        >>   12 FOR_ITER                 8 (to 22)
             14 STORE_FAST               2 (x)
             16 LOAD_FAST                2 (x)
             18 LIST_APPEND              3
             20 JUMP_ABSOLUTE           12
        >>   22 JUMP_ABSOLUTE            4
        >>   24 RETURN_VALUE

这些是创建列表理解所涉及的所有 Python 解释器操作。只需将所有操作都放在 C 级别（在chain）而不是让解释器逐步执行每个字节代码步骤（在理解中），这将为您带来性能提升。

不过，这种提升很小，我不会担心。这是Python，可读性高于速度。

Edit:

对于列表包装的生成器理解

def g(lists):
    return list(x for y in lsts for x in y)

# the comprehension
dis.dis(g.__code__.co_consts[1])
  2           0 LOAD_FAST                0 (.0)
        >>    2 FOR_ITER                20 (to 24)
              4 STORE_FAST               1 (y)
              6 LOAD_FAST                1 (y)
              8 GET_ITER
        >>   10 FOR_ITER                10 (to 22)
             12 STORE_FAST               2 (x)
             14 LOAD_FAST                2 (x)
             16 YIELD_VALUE
             18 POP_TOP
             20 JUMP_ABSOLUTE           10
        >>   22 JUMP_ABSOLUTE            2
        >>   24 LOAD_CONST               0 (None)
             26 RETURN_VALUE

因此，解释器在运行按列表解包的生成器表达式时需要执行相似数量的步骤，但正如您所期望的那样，Python 级别的开销list打开生成器的包装（与 C 相对）LIST_APPEND指令）是减慢速度的原因。

dis.dis(f)
  2           0 LOAD_CONST               1 (<code object <listcomp> at 0x000000000FB58B70, file "<ipython-input-33-1d46ced34d66>", line 2>)
              2 LOAD_CONST               2 ('f.<locals>.<listcomp>')
              4 MAKE_FUNCTION            0
              6 LOAD_FAST                0 (lsts)
              8 GET_ITER
             10 CALL_FUNCTION            1
             12 RETURN_VALUE

dis.dis(g)
  2           0 LOAD_GLOBAL              0 (list)
              2 LOAD_CONST               1 (<code object <genexpr> at 0x000000000FF6F420, file "<ipython-input-40-0334a7cdeb8f>", line 2>)
              4 LOAD_CONST               2 ('g.<locals>.<genexpr>')
              6 MAKE_FUNCTION            0
              8 LOAD_GLOBAL              1 (lsts)
             10 GET_ITER
             12 CALL_FUNCTION            1
             14 CALL_FUNCTION            1
             16 RETURN_VALUE

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么 itertools.chain 比扁平列表理解更快？的相关文章

将tensorflow 2.0 BatchDataset转换为numpy数组

我有这个代码 train images test images tf keras datasets mnist load data train dataset tf data Dataset from tensor slices train
在 Pandas 中按日期获取有效合约

我在检测 pandas DataFrame 中的活动合约方面遇到了一些困难假设每一行都是一个协商对于每一行我有两列 initial date 和 end date 我想知道的是按日期划分的活跃合约数量到目前为止我做了一个非常低效的方
行未从树视图复制

该行未在树视图中复制我在按行并复制并粘贴到未粘贴的任何地方后制作了弹出复制 The code popup tk Menu tree opportunity tearoff 0 def row copy item tree opportun
从字符串到类型的词法转换

最近我尝试用Python存储和读取文件中的信息遇到了一个小问题我想从文本文件中读取类型信息从 string 到 int 或 float 的类型转换非常有效但从 string 到 type 的类型转换似乎是另一个问题当然我尝试了
可以在 TensorFlow 中使用排名相关作为成本函数吗？

我正在处理偶尔充满异常值的极其嘈杂的数据因此我主要依靠相关性来衡量我的神经网络的准确性是否可以明确使用诸如等级相关性斯皮尔曼相关系数之类的东西作为我的成本函数到目前为止我主要依赖 MSE 作为相关性的代理我现在面临三个主要障碍
优化 Keras 以使用所有可用的 CPU 资源

好吧我真的不知道我在说什么所以请耐心听我说我正在使用 Theano 后端运行 Keras 以在 MNIST 图像上运行基本的神经网络目前只是一个教程过去我一直使用我的旧 HP 笔记本电脑因为我有 Windows 和 Ubunt
错误：permission_manager_qt.cpp(82) 不支持的权限类型：13

我正在开发具有内置浏览器功能的 python 代码 PyQt 5 13 import sys from PyQt5 QtCore import from PyQt5 QtGui import from PyQt5 QtWidgets imp
如何限制Django CreateView中ForeignKey字段的选择？

我有一个沿着这些思路的模型结构 models py class Foo models Model class Bar models Model foo models ForeignKey Foo class Baz models Model
定义函数后对其进行修饰？

I think答案是否定的但我似乎找不到明确的说法我有以下情况 def decorated function function functools wraps function def my function print Hello s
如何使用 python urllib 在 HTTP/1.1 中保持活力

现在我正在这样做 Python3 urllib url someurl headers HOST somehost Connection keep alive Accept Encoding gzip deflate opener urll
如何在 Python 中将彩色输出打印到终端？

是否有与 Perl 等效的 Python 语言 print color red print
如何在python中检索aws批处理参数值？

流程 Dynamo DB gt Lambda gt 批处理如果将角色 arn 插入动态数据库它是从 lambda 事件中检索的然后使用submit job角色 arn 的 API 被传递为 parameters role arn ar
Python：计算数据帧列中所有行中特定字符的实例数

我有一个包含列 toaddress ccaddress body 的数据框 df 我想迭代数据帧的索引以获取 toaddress 和 ccaddress 字段中电子邮件地址的最小最大和平均数量这是通过计算这两列中每个字段中的和的实
为什么我用 beautifulSoup 刮的时候有桌子，但没有 pandas

尝试抓取条目页面转换为制表符分隔格式主要拉出序列和 UniProt 登录号当我跑步时 url www signalpeptide de index php sess m listspdb bacteria s details id 10
将 Pandas 列中的列表拆分为单独的列

这是我在 pandas 数据框中的特征列 Feature Cricket 82379 Kabaddi 255 Reality 4751 Cricket 15640 Wildlife 730 LiveTV 13 Football 4129
Pandas Dataframe：将包含列表的行扩展到多行，并为所有列提供所需的索引

我在 pandas 数据框中有时间序列数据索引为测量开始时的时间列中包含以固定采样率记录的值列表连续索引列表中元素数量的差异这是它的样子 Time A B Z 0 1 2 3 4 1 2 3 4 2 5 6 7 8 5 6 7 8
在 MacO 和 Linux 上安装 win32com [重复]

这个问题在这里已经有答案了我的问题很简单我可以安装吗win32com蟒蛇API pywin32特别是在非 Windows 操作系统上我一直在Mac上尝试多个版本pip install pywin32 都失败了下面是一个例子如果你
张量流：注册 numpy bfloat16 扩展

正如我所见 tensorflow 中有 bfloat16 的 numpy 扩展 https github com tensorflow tensorflow blob 24ffe9f729160a095a5cab8f592392018280
如何将列表字典写入字符串而不是 CSV 文件？

This 堆栈溢出问题 https stackoverflow com questions 37997085 how to write a dictionary of lists to a csv file将列表字典写入 CSV 文件的答案
异步和协程与任务队列

我一直在阅读有关 python 3 中的 asyncio 模块的内容以及更广泛地了解 python 中的协程的内容但我不明白是什么让 asyncio 成为如此出色的工具我的感觉是你可以用协程做的所有事情通过使用基于多处理模块例如

随机推荐

Android Studio 1.0.1 APK META-INF/DEPENDENCIES 中复制的重复文件

我安装了 Android Studio 版本 1 0 1 并尝试将我的项目从 eclipse 导入到它它给了我以下错误 Error Execution failed for task app packageDebug Duplicate
Drupal 功能包括主题

是否可以在 Drupal 功能中包含主题如果是这样怎么办不幸的是目前还没有功能基本上由可以通过各种事件挂钩干净地从 Drupal 导出或导入到 Drupal 的内容组成主题是完全不同的动物理论上如果您想覆盖功能中的某些标记例
有没有办法覆盖 Google 路线服务缩放值？

我使用下面的代码来获取两点之间的路线 directionsService route request function response status if status google maps DirectionsStatus OK di
MySQL“GROUP BY NULL”是做什么的？

我正在维护一些遗留代码其中有一个我不理解的 SQL 查询我希望这里有人可以向我解释这样做的目的查询如下所示 select from product performance where merchantid 2151277 and cl
scala、spring 和 scalate

我有一个用 scala spring sitemesh 和 jspx jstl 编写的 Web 项目问题出在 jspx 上我一直遇到问题它希望类型是 java 集合类型所以我必须继续在 scala java 集合之间进行转换有时我
是否可以在 Mac Pro 上构建 Electron 应用程序？由于奇怪的 GPU 问题，似乎不是这样

我尝试拉取并尝试为 Electron 应用程序构建两个不同的引导程序存储库 https github com pastahito electron react webpack https github com pastahito elect
如何将 std::map 输出到二进制文件？

我怎样才能输出一个std map到二进制文件地图声明如下所示 map
“找不到符号”或“无法解析符号”错误是什么意思？

请解释以下有关找不到符号无法解析符号或找不到符号错误 Java 中的信息他们的意思是什么哪些因素会导致它们程序员如何修复它们这个问题旨在对 Java 中的这些常见编译错误进行全面的问答 0 这些错误之间有什么区别吗并不
如何将我的 cordova 应用程序放入 Android Play 商店？

如果有这方面的官方科尔多瓦文档我找不到它希望有一个链接我跑了cordova run android部署到我的手机上事情看起来不错现在我准备好将其变成用户可以在 Android Play 商店下载的官方应用程序了吗当我构建应用程序
python 函数中的任意数量的参数

我想学习如何在 python 函数中传递任意数量的参数所以我以递归方式编写了一个简单的 sum 函数如下所示 def mySum args if len args 1 return args 0 else return args 1 m
Golang：获取切片的类型

我正在使用 Reflect 包来获取任意数组的类型但是得到 prog go 17 cannot use sample array1 type int as type interface in function argument proce
带有矩形数组的 SDL_RenderCopy

SDL RenderCopy 仅接受单个输入矩形和单个输出矩形但是如果我有很多想要填充的图像我对 opengl 的了解告诉我一次绘制所有图像的批量操作可能比每个精灵一次绘制调用要快得多 SDL FillRects 已经有一个计数参数
在 SQL Server 中使用空间索引时出错

我使用空间索引当我尝试执行时WHERE陈述 WHERE T GEOMETRY STIntersects O GEOMETRY 1 AND T GEOMETRY STTouches O GEOMETRY 0 它工作正常但是当我尝试使用 O
如何在mathematica中自动加载用户定义的函数

我有一堆在 mathematica 中经常使用的用户定义函数我想知道是否可以将它们存储在单独的文件中并且 mathematica 会在启动时加载它们并将它们视为内置函数这样每当我创建新的 nb 文件时就不必重复定义类似于 Matla
Gerrit - 复制到 github

我通过配置 gerrit 复制 remote github url email protected cdn cgi l email protection MYUSERNAME name git push refs heads refs he
无法获取提供程序 androidx.core.content.FileProvider：java.lang.IllegalArgumentException：缺少 android.support.FILE_PROVIDER_PATHS 元数据？

我看了很多这样的帖子但还是不知道问题出在哪里我尝试更改 file paths xml 中的路径和名称文件路径 xml
与两个条件等效的 Google 电子表格 COUNTIF 公式

我有一个包含几列的 Google 文档电子表格在 D 列中我有值 Man OR Woman 在 G 列中我有值是或否我想做的是计算 MAN 回答是的次数所以有两个标准 1 Man 和 2 Yes 我有这个公式它只计算单
Laravel Eloquent：计算总价的最佳方法

我正在使用 Laravel 5 1 构建一个简单的买卖应用程序每个Buy Model都有很多BuyDetail 里面存储了购买的商品数量和buy price 我已经在模型上实现了表之间的关系 class Buy extends Model
专门逐行调试

我有一个用 Pascal 编写的脚本我会以这种方式调试它在每一行停止转储内存中所有变量的值然后转到下一行是否可以使用 gdb 或其他 Linux 开源工具来完成此操作使用选项编译文件 g fpc gpc g file pas R
为什么 itertools.chain 比扁平列表理解更快？

在评论中的讨论中这个问题 https stackoverflow com questions 49630581 why does python forbid the use of sum with strings有人提到虽然连接字符串序列

为什么 itertools.chain 比扁平列表理解更快？

为什么 itertools.chain 比扁平列表理解更快？ 的相关文章

随机推荐

热门标签

为什么 itertools.chain 比扁平列表理解更快？的相关文章