获取自 Pandas DataFrame 中上次出现以来的天数？

2023-12-19

假设我有一个 Pandas DataFramedf:

Date      Value
01/01/17  0
01/02/17  0
01/03/17  1
01/04/17  0
01/05/17  0
01/06/17  0
01/07/17  1
01/08/17  0
01/09/17  0

对于每一行，我想有效地计算自上次出现以来的天数Value=1.

So that df:

Date      Value    Last_Occurence
01/01/17  0        NaN
01/02/17  0        NaN
01/03/17  1        0
01/04/17  0        1
01/05/17  0        2
01/06/17  0        3
01/07/17  1        0
01/08/17  0        1
01/09/17  0        2

我可以做一个循环：

for i in range(0, len(df)):
    last = np.where(df.loc[0:i,'Value']==1)
    df.loc[i, 'Last_Occurence'] = i-last

但对于非常大的数据集来说，它似乎效率非常低，并且可能无论如何都是不正确的。

这是 NumPy 方法 -

def intervaled_cumsum(a, trigger_val=1, start_val = 0, invalid_specifier=-1):
    out = np.ones(a.size,dtype=int)    
    idx = np.flatnonzero(a==trigger_val)
    if len(idx)==0:
        return np.full(a.size,invalid_specifier)
    else:
        out[idx[0]] = -idx[0] + 1
        out[0] = start_val
        out[idx[1:]] = idx[:-1] - idx[1:] + 1
        np.cumsum(out, out=out)
        out[:idx[0]] = invalid_specifier
        return out

很少有示例在数组数据上运行来展示涵盖触发器和起始值的各种场景的用法：

In [120]: a
Out[120]: array([0, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1, 0])

In [121]: p1 = intervaled_cumsum(a, trigger_val=1, start_val=0)
     ...: p2 = intervaled_cumsum(a, trigger_val=1, start_val=1)
     ...: p3 = intervaled_cumsum(a, trigger_val=0, start_val=0)
     ...: p4 = intervaled_cumsum(a, trigger_val=0, start_val=1)
     ...: 

In [122]: np.vstack(( a, p1, p2, p3, p4 ))
Out[122]: 
array([[ 0,  1,  1,  1,  0,  0,  1,  0,  0,  1,  1,  1,  1,  1,  0],
       [-1,  0,  0,  0,  1,  2,  0,  1,  2,  0,  0,  0,  0,  0,  1],
       [-1,  1,  1,  1,  2,  3,  1,  2,  3,  1,  1,  1,  1,  1,  2],
       [ 0,  1,  2,  3,  0,  0,  1,  0,  0,  1,  2,  3,  4,  5,  0],
       [ 1,  2,  3,  4,  1,  1,  2,  1,  1,  2,  3,  4,  5,  6,  1]])

用它来解决我们的案例：

df['Last_Occurence'] = intervaled_cumsum(df.Value.values)

示例输出 -

In [181]: df
Out[181]: 
       Date  Value  Last_Occurence
0  01/01/17      0              -1
1  01/02/17      0              -1
2  01/03/17      1               0
3  01/04/17      0               1
4  01/05/17      0               2
5  01/06/17      0               3
6  01/07/17      1               0
7  01/08/17      0               1
8  01/09/17      0               2

运行时测试

方法 -

# @Scott Boston's soln
def pandas_groupby(df):
    mask = df.Value.cumsum().replace(0,False).astype(bool)
    return df.assign(Last_Occurance=df.groupby(df.Value.astype(bool).\
                                    cumsum()).cumcount().where(mask))

# Proposed in this post
def numpy_based(df):
    df['Last_Occurence'] = intervaled_cumsum(df.Value.values)

时间安排 -

In [33]: df = pd.DataFrame((np.random.rand(10000000)>0.7).astype(int), columns=[['Value']])

In [34]: %timeit pandas_groupby(df)
1 loops, best of 3: 1.06 s per loop

In [35]: %timeit numpy_based(df)
10 loops, best of 3: 103 ms per loop

In [36]: df = pd.DataFrame((np.random.rand(100000000)>0.7).astype(int), columns=[['Value']])

In [37]: %timeit pandas_groupby(df)
1 loops, best of 3: 11.1 s per loop

In [38]: %timeit numpy_based(df)
1 loops, best of 3: 1.03 s per loop

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

performance

date

pandas

NumPy

获取自 Pandas DataFrame 中上次出现以来的天数？的相关文章

我应该使用 Python 双端队列还是列表作为堆栈？ [复制]

这个问题在这里已经有答案了我想要一个可以用作堆栈的 Python 对象使用双端队列还是列表更好元素数量较少还是数量较多有什么区别您的情况可能会根据您的应用程序和具体用例而有所不同但在一般情况下列表非常适合堆栈 append is
是否可以使用“git gc”来打包引用日志对象？

正如答案所暗示的https stackoverflow com a 32025729 https stackoverflow com a 32025729我已经配置了远程裸仓库 git config gc pruneExpire never
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
从 Powershell 脚本安装 Python

当以管理员身份从 PowerShell 命令行运行以下命令时可以在 Windows 11 上成功安装 Python c temp python 3 11 4 amd64 exe quiet InstallAllUsers 0 Instal
使用 python/numpy 重塑数组

我想重塑以下数组 gt gt gt test array 11 12 13 14 21 22 23 24 31 32 33 34 41 42 43 44 为了得到 gt gt gt test2 array 11 12 21 22 13 14
未知错误：Chrome 无法启动：异常退出

当我使用 chromedriver 对 Selenium 运行测试时出现此错误 selenium common exceptions WebDriverException Message unknown error Chrome fail
通过Python连接到Bigquery：ProjectId和DatasetId必须非空

我编写了以下脚本来通过 SDK 将 Big Query 连接到 Python 如下所示 from google cloud import bigquery client bigquery Client project My First Pr
如何将 ascii 值列表转换为 python 中的字符串？

我在 Python 程序中有一个列表其中包含一系列数字这些数字本身就是 ASCII 值如何将其转换为可以在屏幕上回显的常规字符串您可能正在寻找 chr gt gt gt L 104 101 108 108 111 44 32 1
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
Pandas 组合不同索引的数据帧

我有两个数据框df 1 and df 2具有不同的索引和列但是有一些索引和列重叠我创建了一个数据框df索引和列的并集因此不存在重复的索引或列我想填写数据框df通过以下方式 for x in df index for y in df
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
条件在反应本机生产中失败，但在开发中有效

我创建了一个反应本机应用程序我需要通过它进行比较如果属实就会执行死刑问题是该条件适用于 React Native 开发模式而不适用于 React Native 生产版本我使用 firebase 作为数据库也使用 redux
python 中的“槽包装器”是什么？

object dict 和其他地方的隐藏方法设置为这样的
Python：Goslate 翻译请求返回“503：服务不可用”[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们不允许提出寻求书籍工具软件库等推荐的问题您可以编辑问题以便用事实和引文来回答这个问题似乎不是关于主要由程序员使用的特定编程问
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
如何使用 Boto3 启动具有 IAM 角色的 EC2 实例？

我无法弄清楚如何使用指定的 IAM 角色在 Boto3 中启动 EC2 实例以下是迄今为止我如何成功创建实例的一些示例代码 import boto3 ec2 boto3 resource ec2 region name us west 2
如何使用 PrimaryKeyRelatedField 更新多对多关系上的类别

Django Rest 框架有一个主键相关字段 http www django rest framework org api guide relations primarykeyrelatedfield其中列出了我的 IDmany to m
python 对浮点数进行不正确的舍入

gt gt gt a 0 3135 gt gt gt print 3f a 0 314 gt gt gt a 0 3125 gt gt gt print 3f a 0 312 gt gt gt 我期待 0 313 而不是 0 312 有没有
NLTK：查找单词大小为 2k 的上下文

我有一个语料库我有一个词对于语料库中该单词的每次出现我想获取一个包含该单词之前的 k 个单词和该单词之后的 k 个单词的列表我在算法上做得很好见下文但我想知道 NLTK 是否提供了一些我错过的功能来满足我的需求 def size

随机推荐

如何在 TFS 上创建分支并将挂起的更改附加到新分支

我正在主分支上工作并对文件做了很多更改我没有检查这些更改如何从主分支创建子分支但附加到主分支的所有本地挂起更改更改将附加到新创建的子分支所以基本上如何创建子分支并将父分支的所有挂起更改附加到子分支您可以搁置更改然后使用 T
如何从异步 Http 客户端请求获取 CompletableFuture？

On 异步 Http 客户端文档 https github com AsyncHttpClient async http client我看到如何获得Future
Intel MSR 每线程频率缩放

我正在扩展 Linux 内核以便控制某些线程的频率当它们被调度到核心任何核心时通过将正确的 p 状态写入寄存器来更改核心的频率IA32 PERF CTL 如英特尔手册中建议的那样但是当调度具有不同自定义频率的不同线程时似
为 pandas 中的列添加具有重复值的数字

我有一个像这样的数据框 df col1 col2 1 pqr 3 abc 2 pqr 4 xyz 1 pqr 我发现有重复的值及其 pqr 我想在 pqr 发生的地方添加 1 2 3 我想要实现的最终数据框是 df1 col1 col2 1
为什么 std::mutex 在 WIndows SOCKET 结构中使用时会创建 C2248？

我正在使用一个结构来支持 Windows SOCKET 列表 struct ConnectedSockets std mutex lock std list
在 mongodb 中分组并从集合中获取所有值

这是示例数据需要根据competition id进行分组需要分组后集合中的所有数据我已经添加了示例集合和所需的输出 ss 请帮忙检查一下提前致谢 id l5ergph87pgdr8k season id status id 13 v
Spring WebFlux 反应式 WebSocket 防止连接关闭

我正在为我的应用程序开发简单的聊天模块使用 Spring WebFlux 后端使用 ReactiveMongoRepository 前端使用 Angular 4 我能够通过 WebSocketSession 接收数据但在从数据库流式传输
电子邮件中的 mathematica 代码并保持与笔记本相同的格式

众所周知当要发送包含一些 Mathematica 代码的电子邮件时做法是执行以下操作选择单元格单元格 gt 转换为 gt 输入表格然后复制为文本然后将代码粘贴到电子邮件或任何其他交换媒体中上述唯一的问题是当另一端从电子邮件复
在inApp浏览器中注入代码并在应用程序中获取其返回值

我正在编写一个phonegap应用程序它在inAppBrowser内启动一个网络应用程序我想从这个网络应用程序获得某些反馈以便在我的phonegap应用程序中进一步使用它因此用户启动 Web 应用程序在那里执行一些操作然后单击
状态栏有新通知发送时如何亮屏？

这是我设置通知的代码它有效 Override public void onReceive Context context Intent intent category String intent getExtras get CATEGOR
在 Mac OS Big Sur 上使用 pyenv 安装 python 3.6 时出现问题

在我的 MacBook Air OS Big Sur 上使用命令 pyenv install 3 6 13 安装 Python 3 6 13 时出现以下错误 Installing Python 3 6 13 python build us
在 Android 设备上尽可能快地删除或删除 sqlite - 表

我有一个有 1400 行的表每行都有一个 blob 字段保存 10kb 到 500kb 之间的数据我需要删除该表我花了 3 5 分钟删除该表并花了 3 分钟删除该表这对用户来说太长了我怎样才能尽快删除该表不需要回滚或任何安全
可以使用 plinq ForAll 批量插入数据库吗？

我正在这样做 entities AsParallel ForAll o gt repository Insert o 这好吗我能用它获得更多表现吗 No 这个可能会更快因为它利用了 SQL 的并行性但最终 SQL 必须在进行插入时对表
Bang IE7 - 这是什么意思？

这个标题并不像看起来那么疯狂我保证在研究另一个问题时我在 Stack Overflow 的样式表中注意到以下内容 width auto width 650px ie7 padding bottom 20px ie7 这是一种奇怪的条件
部署 .NET COM dll，出现错误 (0x80070002)

我有一个 NET COM 程序集正在尝试部署到 Web 服务器 IIS 6 Win 2003 我们已成功将此程序集部署到测试环境但生产环境无法正常工作该程序集是从经典 ASP 页面调用的每次该页面尝试使用初始化程序集 Set LT
为什么 View.display 返回 null？

我正在尝试使用本教程来实现 CameraX https codelabs developers google com codelabs camerax getting started 5 https codelabs developers
C# 禁用表单加载时的文本框焦点

我有一个文本框我想禁用它的焦点如何通过编程禁用文本框的焦点使用 C 编程禁用文本框焦点我使用了下面两个代码不起作用 textBox1 focus false textBox1 focused false 您可以设置this Acti
如何为 Android v2 地图创建发布密钥

我尝试了下面的调试密钥代码它工作正常当我制作 apk 时地图崩溃了在谷歌搜索后我发现调试键在发布模式下工作 keytool list v keystore C Users your user name android debug
用于表单的 Google Apps 脚本，生成唯一 ID 号

我创建了一个简单的 Google 表单其中包含以下字段姓名电子邮件工资和请求当用户完成表单后我想向他她发送一封包含信息的电子邮件但是我想使用请求字段插入一个唯一的号码用户在需要进一步通信时可以参考该号码如果用户在
获取自 Pandas DataFrame 中上次出现以来的天数？

假设我有一个 Pandas DataFramedf Date Value 01 01 17 0 01 02 17 0 01 03 17 1 01 04 17 0 01 05 17 0 01 06 17 0 01 07 17 1 01 08

获取自 Pandas DataFrame 中上次出现以来的天数？

获取自 Pandas DataFrame 中上次出现以来的天数？ 的相关文章

随机推荐

热门标签

获取自 Pandas DataFrame 中上次出现以来的天数？的相关文章