itertools.groupby 的意外行为

2023-11-25

这是观察到的行为：

In [4]: x = itertools.groupby(range(10), lambda x: True)

In [5]: y = next(x)

In [6]: next(x)
---------------------------------------------------------------------------
StopIteration                             Traceback (most recent call last)
<ipython-input-6-5e4e57af3a97> in <module>()
----> 1 next(x)

StopIteration: 

In [7]: y
Out[7]: (True, <itertools._grouper at 0x10a672e80>)

In [8]: list(y[1])
Out[8]: [9]

预期输出为list(y[1]) is [0,1,2,3,4,5,6,7,8,9]

这里发生了什么？

我观察到了这一点cpython 3.4.2，但其他人已经看到了这一点cpython 3.5 and IronPython 2.9.9a0 (2.9.0.0) on Mono 4.0.30319.17020 (64-bit).

观察到的行为Jython 2.7.0和pypy：

Python 2.7.10 (5f8302b8bf9f, Nov 18 2015, 10:46:46)
[PyPy 4.0.1 with GCC 4.8.4]

>>>> x = itertools.groupby(range(10), lambda x: True)
>>>> y = next(x)
>>>> next(x)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
StopIteration
>>>> y
(True, <itertools._groupby object at 0x00007fb1096039a0>)
>>>> list(y[1])
[]

itertools.groupby文档告诉我们

itertools.groupby(iterable, key=None)

[...]

的运作groupby()类似于Unix中的uniq过滤器。每当键函数的值发生变化时，它都会生成一个中断或新组（这就是为什么通常需要使用相同的键函数对数据进行排序）。这种行为与 SQL 的 GROUP BY 不同，后者聚合公共元素，无论其输入顺序如何。

返回的组本身就是一个迭代器，它与以下对象共享底层可迭代对象groupby()。因为源是共享的，所以当`groupby()对象前进时，前一个组不再可见。因此，如果稍后需要该数据，它应该存储为列表 [--]

So the 假设从最后一段可以看出，生成的列表将是空列表[]，因为迭代器已经前进，并且满足StopIteration;但在 CPython 中结果却令人惊讶[9].

这是因为_grouper迭代器落后于原始迭代器一项，这是因为groupby需要向前查看一个项目以查看它是否属于当前组或下一个组，但它必须能够稍后生成该项目作为新组的第一个项目。

但是，那currkey and currvalue的属性groupby are not重置时原始迭代器已耗尽, so currvalue仍然指向迭代器的最后一项。

CPython 文档实际上包含以下等效代码，它也具有与 C 版本代码完全相同的行为：

class groupby:
    # [k for k, g in groupby('AAAABBBCCDAABBB')] --> A B C D A B
    # [list(g) for k, g in groupby('AAAABBBCCD')] --> AAAA BBB CC D
    def __init__(self, iterable, key=None):
        if key is None:
            key = lambda x: x
        self.keyfunc = key
        self.it = iter(iterable)
        self.tgtkey = self.currkey = self.currvalue = object()
    def __iter__(self):
        return self
    def __next__(self):
        while self.currkey == self.tgtkey:
            self.currvalue = next(self.it)    # Exit on StopIteration
            self.currkey = self.keyfunc(self.currvalue)
        self.tgtkey = self.currkey
        return (self.currkey, self._grouper(self.tgtkey))
    def _grouper(self, tgtkey):
        while self.currkey == tgtkey:
            yield self.currvalue
            try:
                self.currvalue = next(self.it)
            except StopIteration:
                return
            self.currkey = self.keyfunc(self.currvalue)

值得注意的是__next__找到下一组的第一项，并将其密钥存储到self.currkey及其价值self.currvalue。但关键是线

self.currvalue = next(self.it)    # Exit on StopIteration

When next throws StopItertion the self.currvalue仍然包含前一组的最后一个键。现在，当y[1]被制成一个list, it first产生的值self.currvalue，然后才运行next()在底层迭代器上（并且满足StopIteration again).

尽管文档中有 Python 等效项，但其行为与 CPython、IronPython、Jython 和 PyPy 中的权威 C 代码实现完全相同，给出了不同的结果。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

python2x

pythonitertools

pythoninternals

itertools.groupby 的意外行为的相关文章

Django 代理模型的继承和多态性

我正在开发一个我没有启动的 Django 项目我面临着一个问题遗产我有一个大模型在示例中简化称为MyModel这应该代表不同种类的物品的所有实例对象MyModel应该具有相同的字段但方法的行为根据项目类型的不同而有很大差异到目
Python - StatsModels、OLS 置信区间

在 Statsmodels 中我可以使用以下方法拟合我的模型 import statsmodels api as sm X np array 22000 13400 47600 7400 12000 32000 28000 31000 6
如何在 Python 中检索 for 循环中的剩余项目？

我有一个简单的 for 循环迭代项目列表在某些时候我知道它会破裂我该如何退回剩余的物品 for i in a b c d e f g try some func i except return remaining items if s
python 相当于 R 中的 get() （= 使用字符串检索符号的值）

在 R 中 get s 函数检索名称存储在字符变量向量中的符号的值s e g X lt 10 r lt XVI s lt substr r 1 1 X get s 10 取罗马数字的第一个符号r并将其转换为其等效整数尽管花了一些时间翻
根据列值突出显示数据框中的行？

假设我有这样的数据框 col1 col2 col3 col4 0 A A 1 pass 2 1 A A 2 pass 4 2 A A 1 fail 4 3 A A 1 fail 5 4 A A 1 pass 3 5 A A 2 fail 2
SQLALchemy .query：类“Car”的未解析属性引用“query”

我有一个这里已经提到的问题https youtrack jetbrains com issue PY 44557 https youtrack jetbrains com issue PY 44557 但我还没有找到解决方案我使用 Pyt
测试 python Counter 是否包含在另一个 Counter 中

如何测试是否是pythonCounter https docs python org 2 library collections html collections Counter is 包含在另一个中使用以下定义柜台a包含在计数器中b当且
Python 函数可以从作用域之外赋予新属性吗？

我不知道你可以这样做 def tom print tom s locals locals def dick z print z name z name z guest Harry print z guest z guest print di
绘制方程

我正在尝试创建一个函数它将绘制我告诉它的任何公式 import numpy as np import matplotlib pyplot as plt def graph formula x range x np array x rang
添加不同形状的 numpy 数组

我想添加两个不同形状的 numpy 数组但不进行广播而是将缺失值视为零可能最简单的例子是 1 2 3 2 gt 3 2 3 or 1 2 3 2 1 gt 3 2 3 1 0 0 我事先不知道形状我正在弄乱每个 np shape
如何使用Python创建历史时间线

So I ve seen a few answers on here that helped a bit but my dataset is larger than the ones that have been answered prev
Pandas：merge_asof() 对多行求和/不重复

我正在处理两个数据集每个数据集具有不同的关联日期我想合并它们但因为日期不完全匹配我相信merge asof 是最好的方法然而有两件事发生merge asof 不理想的数字重复数字丢失以下代码是一个示例 df a pd Da
将图像分割成多个网格

我使用下面的代码将图像分割成网格的 20 个相等的部分 import cv2 im cv2 imread apple jpg im cv2 resize im 1000 500 imgwidth im shape 0 imgheight i
类型错误：预期单个张量时的张量列表 - 将 const 与 tf.random_normal 一起使用时

我有以下 TensorFlow 代码 tf constant tf random normal time step batch size 1 1 我正进入状态TypeError List of Tensors when single Te
Conda SafetyError：文件大小不正确

使用创建 Conda 环境时conda create n env name python 3 6 我收到以下警告 Preparing transaction done Verifying transaction SafetyError Th
使用 Python 绘制 2D 核密度估计

I would like to plot a 2D kernel density estimation I find the seaborn package very useful here However after searching
如何计算 pandas 数据帧上的连续有序值

我试图从给定的数据帧中获取连续 0 值的最大计数其中包含来自 pandas 数据帧的 id date value 列如下所示 id date value 354 2019 03 01 0 354 2019 03 02 0 354 201
Rocket UniData/UniVerse：ODBC 无法分配足够的内存

每当我尝试使用pyodbc连接到 Rocket UniData UniVerse 数据时我不断遇到错误 pyodbc Error 00000 00000 Rocket U2 U2ODBC 0302810 Unable to allocate
导入错误：没有名为 site 的模块 - mac

我已经有这个问题几个月了每次我想获取一个新的 python 包并使用它时我都会在终端中收到此错误 ImportError No module named site 我不知道为什么会出现这个错误实际上我无法使用任何新软件包因为每次我
Statsmodels.formula.api OLS不显示截距的统计值

我正在运行以下源代码 import statsmodels formula api as sm Add one column of ones for the intercept term X np append arr np ones 50

随机推荐

如何使用 PhantomJS 获取网站的 HTML 源代码

下面是 PhantomJS 的示例它通过 DOM id 从外部网页获取一些元素 var page require webpage create console log The default user agent is page sett
如何在 NestedScrollView 中使用 ViewPager 和 RecyclerView 进行工作

我正在将 NestedScrollView 与 ViewPager 一起使用 NestedScrollView 内部有一个 LinearLayout 最后有一些 TextView TabLayout 和 ViewPager TextView
有没有办法在不重新启动 Solr 服务器的情况下动态更新同义词文件？

众所周知有一个同义词 txtconf 目录中的文件每当我发现一些新的同义词时我就想更新它那么有什么方法可以动态更新该文件而不需要重新启动Solr服务器我的搜索结果会考虑新的同义词吗如果有人有任何想法请帮助我提前致谢我认为你可
_mm_crc32_u64 定义不明确

为什么世界上有 mm crc32 u64 像这样定义 unsigned int64 mm crc32 u64 unsigned int64 crc unsigned int64 v crc32 指令always累积 32 位 CRC nev
如何为我的班级提供定制演员支持？

如何为将我的类转换为其他类型提供支持例如如果我有自己的管理实现byte 我想让人们把我的班级投射到byte 它只会返回私人成员我该怎么做让他们也将其转换为字符串是常见的做法还是我应该覆盖ToString 或两者您需要使用以下任一
从 .NET Framework 4.7.2 移植到 .NET5.0 后如何避免“-0”作为 double.ToString() 结果？

我正在将 NET Framework 4 7 2 Visual Studio 项目移植到 NET5 0 当值为负且接近于零时我遇到了 double ToString 的不同行为例如双精度值 7 1054273576010019E 15
从 python 列表中删除重复的 JSON 对象

我有一个字典列表其中特定值重复多次我想删除重复的值 My list te Name Bala phone None Name Bala phone None Name Bala phone None Name Bala phone No
为什么菱形运算符在 Java 7 中的 addAll() 调用中不起作用？

鉴于这个例子泛型教程 List
使用 JUnrar 提取文件

我之前问过一个关于用 Java 提取 RAR 存档的问题有人向我推荐了 JUnrar 官方网站已经关闭但它似乎被广泛使用因为我在网上发现了很多关于它的讨论有人可以告诉我如何使用 JUnrar 提取存档中的所有文件吗我在网上找到了一
在 PyInstaller 中打包多个脚本

我正在使用 PyInstaller 将两个脚本转换为一个可执行文件其中一个脚本调用另一个脚本我遇到的问题是我无法弄清楚如何捆绑两个脚本并仍然让它们相互引用导致问题的代码是一个脚本 script1 py包含 subprocess cal
数据库清理器无法在 minitest 轨道中工作

如果我单独运行我的 Minitest 控制器测试工作正常rake minitest controllers但当我跑步时rake minitest all然后我收到验证失败错误这是因为模型测试中已经使用了电子邮件我使用DatabaseC
使用 SF 符号时调整图像大小 - UIImage(systemName:)

我有以下预打包的系统 SF 映像 UIImage systemName location fill 它可能看起来微不足道但我如何调整它的大小以使其更大谢谢你可以实例化一个UIImage SymbolConfiguration 例如您
webpack + babel loader 源映射引用空文件

我有一个 es6 项目我使用 webpack babel loader 捆绑它当我打开开发工具时我可以在下面看到 webpack 和我的所有源代码 es6 问题是断点没有命中函数引用将我定向到文件名 d41d 其中有以下内容 un
Thor 和 YAML 以二进制输出？

我正在使用 Thor 并尝试将 YAML 输出到文件中在 irb 中我得到了我所期望的 YAML 格式的纯文本但是当作为雷神方法的一部分时它的输出是不同的 class Foo lt Thor include Thor Actions
Crosswalk 无法解析配置“:_armv7DebugCompile”的所有依赖项

直到几天前我使用Crosswalk 18 成功构建了我的应用程序今天我遇到了这个错误 What went wrong A problem occurred configuring root project android gt Could
DateUtils.getRelativeTimeSpanString 用于未来日期

因此 Android SDK 中的 DateUtils getRelativeTimeSpanString 1 非常适合显示过去的相对时间即 5 天前或 5 分钟前但对于未来的日期似乎不太适用好像只是打印日期是否有任何简单的替代方法
如何初始化var？

我可以用 null 或一些空值初始化 var 吗 C is a 严格强类型语言引入 var 是为了编译时类型绑定匿名类型然而您可以将 var 用于设计时已知的原始类型和自定义类型在运行时没有像 var 这样的东西它被替换为实际类
无法确定名为的参数的 GraphQL 输入类型

我有两个相关模型 1 角色实体 import Column Entity BaseEntity OneToMany PrimaryColumn from typeorm import Field ObjectType from type g
在c#中捕获游戏屏幕截图最快的方法？（每秒超过20张图像）

如何快速截取整个游戏屏幕大约每秒 20 30 次我想将它们转换为视频 1 我尝试过 WMEncoder 结果是 WMEncoder 只能使用一组预配置的编解码器以视频格式 wma 捕获屏幕和屏幕区域 29 fps 最佳编码结果 WMEn
itertools.groupby 的意外行为

这是观察到的行为 In 4 x itertools groupby range 10 lambda x True In 5 y next x In 6 next x StopIteration Traceback most recent c

itertools.groupby 的意外行为

itertools.groupby 的意外行为 的相关文章

随机推荐

热门标签

itertools.groupby 的意外行为的相关文章