我可以在 pandas 中执行动态行累加吗？

2024-05-06

如果我有以下数据框，如下导出：df = pd.DataFrame(np.random.randint(0, 10, size=(10, 1)))

有没有有效的方法cumsum具有限制的行，每次达到此限制时，开始一个新的cumsum。达到每个限制（无论有多少行）后，都会创建包含总累积和的行。

下面我创建了一个执行此操作的函数示例，但它非常慢，尤其是当数据帧变得非常大时。我不喜欢我的函数循环，我正在寻找一种让它更快的方法（我猜是一种没有循环的方法）。

def foo(df, max_value):
    last_value = 0
    storage = []
    for index, row in df.iterrows():
        this_value = np.nansum([row[0], last_value])
        if this_value >= max_value:
            storage.append((index, this_value))
            this_value = 0
        last_value = this_value
    return storage

如果你像这样运行我的函数：foo(df, 5)在上述上下文中，它返回：

   0
2  10
6  8

循环无法避免，但可以使用以下方法并行化：numba's njit:

from numba import njit, prange

@njit
def dynamic_cumsum(seq, index, max_value):
    cumsum = []
    running = 0
    for i in prange(len(seq)):
        if running > max_value:
            cumsum.append([index[i], running])
            running = 0
        running += seq[i] 
    cumsum.append([index[-1], running])

    return cumsum

这里需要索引，假设您的索引不是数字/单调递增。

%timeit foo(df, 5)
1.24 ms ± 41.4 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

%timeit dynamic_cumsum(df.iloc(axis=1)[0].values, df.index.values, 5)
77.2 µs ± 4.01 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

如果索引是Int64Index类型，您可以将其缩短为：

@njit
def dynamic_cumsum2(seq, max_value):
    cumsum = []
    running = 0
    for i in prange(len(seq)):
        if running > max_value:
            cumsum.append([i, running])
            running = 0
        running += seq[i] 
    cumsum.append([i, running])

    return cumsum

lst = dynamic_cumsum2(df.iloc(axis=1)[0].values, 5)
pd.DataFrame(lst, columns=['A', 'B']).set_index('A')

    B
A    
3  10
7   8
9   4

%timeit foo(df, 5)
1.23 ms ± 30.6 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

%timeit dynamic_cumsum2(df.iloc(axis=1)[0].values, 5)
71.4 µs ± 1.4 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

njit功能性能

perfplot.show(
    setup=lambda n: pd.DataFrame(np.random.randint(0, 10, size=(n, 1))),
    kernels=[
        lambda df: list(cumsum_limit_nb(df.iloc[:, 0].values, 5)),
        lambda df: dynamic_cumsum2(df.iloc[:, 0].values, 5)
    ],
    labels=['cumsum_limit_nb', 'dynamic_cumsum2'],
    n_range=[2**k for k in range(0, 17)],
    xlabel='N',
    logx=True,
    logy=True,
    equality_check=None # TODO - update when @jpp adds in the final `yield`
)

双对数图显示，对于较大的输入，生成器函数速度更快：

一个可能的解释是，随着 N 的增加，追加到不断增长的列表的开销dynamic_cumsum2变得突出。尽管cumsum_limit_nb只是必须yield.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

performance

numba

我可以在 pandas 中执行动态行累加吗？的相关文章

是否可以提高 Mongoexport 速度？

我有一个 1 3 亿行的 MongoDB 3 6 2 0 集合它有几个简单的字段和 2 个带有嵌套 JSON 文档的字段数据以压缩格式 zlib 存储我需要尽快将其中一个嵌入字段导出为 JSON 格式然而 mongoexport 需
使用带有关键字参数的 map() 函数

这是我尝试使用的循环map功能于 volume ids 1 2 3 4 5 ip 172 12 13 122 for volume id in volume ids my function volume id ip ip 我有办法做到这一点
Flask 会话变量

我正在用 Flask 编写一个小型网络应用程序当两个用户在同一网络下尝试使用应用程序时我遇到会话变量问题这是代码 import os from flask import Flask request render template
如何使用Conda下载python包并随后离线安装？

我知道通过 pip 我可以使用以下命令下载 Python 包但 pip install 破坏了我的内部包依赖关系当我做 pip download
从字符串中删除识别的日期

作为输入我有几个包含不同格式日期的字符串例如彼得在16 45 我的生日是1990年7月8日 On 7 月 11 日星期六我会回家 I use dateutil parser parse识别字符串中的日期在下一步中我想从字符串中删除
绘制随时间变化的分类数据计数

我有一个数据框 df 其中有一列包含分类数据 ETH 带有 DateTimeIndex 我想绘制类别counts随着时间的推移它们按天索引我最好按年绘制它们 df pd DataFrame County 0 Bexar 3 Nueces
python 相当于 R 中的 get() （= 使用字符串检索符号的值）

在 R 中 get s 函数检索名称存储在字符变量向量中的符号的值s e g X lt 10 r lt XVI s lt substr r 1 1 X get s 10 取罗马数字的第一个符号r并将其转换为其等效整数尽管花了一些时间翻
测试 python Counter 是否包含在另一个 Counter 中

如何测试是否是pythonCounter https docs python org 2 library collections html collections Counter is 包含在另一个中使用以下定义柜台a包含在计数器中b当且
OpenCV 无法从 MacBook Pro iSight 捕获

几天后我无法再从 opencv 应用程序内部打开我的 iSight 相机 cap cv2 VideoCapture 0 返回并且cap isOpened 回报true 然而 cap grab 刚刚返回false 有任何想法吗示例代码
如何使用 OpencV 从 Firebase 读取图像？

有没有使用 OpenCV 从 Firebase 读取图像的想法或者我必须先下载图片然后从本地文件夹执行 cv imread 功能有什么办法我可以使用cv imread link of picture from firebase 您可以
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
Flask如何获取请求的HTTP_ORIGIN

我想用我自己设置的 Access Control Allow Origin 标头做出响应而弄清楚请求中的 HTTP ORIGIN 参数在哪里似乎很混乱我在用着烧瓶 0 10 1 以及HTTP ORIGIN似乎是这个的特点之一object
Jupyter Notebook 内核一直很忙

我已经安装了 anaconda 并且 python 在 Spyder IPython 等中工作正常但是我无法运行 python 笔记本内核被创建它也连接但它始终显示黑圈忙碌符号防火墙或防病毒软件没有问题我尝试过禁用两者我也无法
为字典中的一个键附加多个值[重复]

这个问题在这里已经有答案了我是 python 新手我有每年的年份和值列表我想要做的是检查字典中是否已存在该年份如果存在则将该值附加到特定键的值列表中例如我有一个年份列表并且每年都有一个值 2010 2 2009 4 1989
解释 Python 中的数字范围

在 Pylons Web 应用程序中我需要获取一个字符串例如关于如何做到这一点有什么建议吗我是 Python 新手我还没有找到任何可以帮助解决此类问题的东西该列表将是 1 2 3 45 46 48 49 50 51 77 使用
使用其构造函数初始化 OrderedDict 以便保留初始数据的顺序的正确方法？

初始化有序字典 OD 以使其保留初始数据的顺序的正确方法是什么 from collections import OrderedDict Obviously wrong because regular dict loses order d O
从列表指向字典变量

假设你有一个清单 a 3 4 1 我想用这些信息来指向字典 b 3 4 1 现在我需要的是一个常规看到该值后在 b 的位置内读写一个值我不喜欢复制变量我想直接改变变量b的内容假设b是一个嵌套字典你可以这样做 reduce di
如何将输入读取为数字？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动 Why are x and y下面的代码中使用字符串而不是整数注意在Python 2
NotImplementedError：无法将符号张量 (lstm_2/strided_slice:0) 转换为 numpy 数组。时间

张量流版本 2 3 1 numpy 版本 1 20 在代码下面 define model model Sequential model add LSTM 50 activation relu input shape n steps n fe
Statsmodels.formula.api OLS不显示截距的统计值

我正在运行以下源代码 import statsmodels formula api as sm Add one column of ones for the intercept term X np append arr np ones 50

随机推荐

我可以使用 vh 和 vw 指定画布尺寸吗？

我的代码是 var canvas document getElementById canvas ctx canvas getContext 2d ctx canvas width 40vw ctx canvas height 40vh 但它
Azure SQL 数据库流量迁移到较新的网关

收到来自 azure 的关于 Azure SQL 数据库流量迁移到较新网关的电子邮件电子邮件中有几个链接包括Azure SQL 数据库流量迁移到较新的网关 https learn microsoft com en us azure sq
如何将年、月、日、小时/分钟列转换为单个日期时间列？

我有以下数据格式其中包含年月日和小时分钟的不同列前两位数字是小时最后两位数字是分钟如何通过组合所有这些现有列来创建日期时间格式的新列 YEAR MONTH DAY HOUR MINUTE 2015 1 15 0010 2015
如何使用 Sound Cloud API 按标签搜索特定用户的曲目？

我想通过仅与我的用户名即皇家歌剧院相关的标签搜索曲目例如 http api soundcloud com users royaloperahouse tracks client id 238947HSGDHSDG tags eric
为什么构造函数参数要成为案例类的成员？

class MyClass name String val x new MyClass x println x name Error name is not a member of MyClass but abstract class Ba
如何选择部分密集数据集的均匀分布子集？

P是一个 n d 矩阵持有nd 维样本 P某些地区的密度是其他地区的几倍我想选择一个子集P其中任意样本对之间的距离大于d0 并且我需要将其传播到整个区域所有样本都具有相同的优先级无需优化任何内容例如覆盖面积或成对距离之和这是执行
Bootstrap 4 navbar-inverse 没有颜色

最近我决定尝试新的引导程序版本 4 我对文件做了所有正确的事情下面是我的html
更改 urllib2.urlopen 上的用户代理

如何使用非默认用户代理下载网页urllib2 urlopen urllib2 urlopen is not available in Python 3 x q 2792650 the 3 x equivalent is urllib req
在 firebase 中存储空数组

我的 firebase 应用程序与 React 一起使用我可以注册用户然后将信息记录到数据库中我正在创建一个约会应用程序我想要某种方法来存储空数组例如 matchers etc 我尝试过这样的事情 firebase databa
Win32 控制台禁用系统菜单按钮

我想禁用灰色控制台窗口上的系统菜单按钮特别是最小化按钮我已经尝试过上面提到的功能另一个线程 https stackoverflow com questions 15834818 c prevent the console window
如何在MySQL中选择字段具有最小值的数据？

我想从 MySQL 中的表中选择特定字段具有最小值的数据我尝试过 SELECT FROM pieces WHERE MIN price 请问有什么帮助吗这将为您提供所有记录中价格最低的结果 SELECT FROM pieces WHER
Docker 数据卷容器。我似乎无法备份

阅读这些链接 https docs docker com userguide dockervolumes backup restore or migrate data volumes https docs docker com usergu
软删除 Nibernate

我想对我的数据库表进行软删除我应用了以下语句如此处所述http nhibernate info blog 2008 09 06 soft deletes html http nhibernate info blog 2008 09 06
如何在Java中设置word文档（.doc或.docx）的背景颜色（页面颜色）？

通过一些图书馆例如http poi apache org http poi apache org 我们可以创建Word文档具有任何文本颜色但对于背景或文本的突出显示我没有找到任何解决方案手动方式的word页面颜色 https sup
如何将非托管内存数组复制到同一个非托管内存中

我保留了内存10项128字节 IntPtr dst Marshal AllocHGlobal 10 128 IntPtr src1 Marshal AllocHGlobal 128 init scr1 from DLL IntPtr src
SuiteScript 2.0 添加过滤器以保存脚本中的搜索

我有一个自定义记录其中有一个项目字段和一个位置字段我对该记录保存了一个搜索其中已经包含我想要的列和一些始终需要的起始条件我想在处理销售订单时使用此搜索我想存储行上所有项目内部 id 和位置 id 的数组然后将其作为动态过滤器传递
获取线性 pyomo 约束的系数

我想获得线性约束的系数cpyomo 模型的m 例如对于 m ConcreteModel m x 1 Var m x 2 Var m x 3 Var within Integers m x 4 Var within Integers m c
在 AtTask PUT 请求中发送多个更新

我想知道 AtTask 的 API 中是否有一种方法可以在单个 URL 请求中发布多个更新例如我需要更新 1 000 条记录的 extRefID 我是否可以对 API 进行 1 000 次调用就开销而言成本高昂或者我可以使用包含如下
C++ 构造函数抛出异常时销毁对象的成员变量

这个问题是基于 Scott Meyers 在他的书更有效的 C 中提供的一个例子考虑下面的类 A class to represent the profile of a user in a dating site for animal
我可以在 pandas 中执行动态行累加吗？

如果我有以下数据框如下导出 df pd DataFrame np random randint 0 10 size 10 1 0 0 0 1 2 2 8 3 1 4 0 5 0 6 7 7 0 8 2 9 2 有没有有效的方法cumsum

我可以在 pandas 中执行动态行累加吗？

我可以在 pandas 中执行动态行累加吗？ 的相关文章

随机推荐

热门标签

我可以在 pandas 中执行动态行累加吗？的相关文章