Pandas：与之前值的差异

2023-11-24

给定一个看起来像这样的 Pandas 数据框

GROUP   VALUE    MASK
  1        5     false
  2       10     false
  2       20     false
  1        7     true
  3        17    false
  3        18    false
  1        100   false
  1        200   true

对于 MASK 为 true 的每一行，我希望获得与该组中的前一个值的差异，即结果应该是

VALUE DIFF
  7      2
  200  100

我如何在 Pandas 中计算这个？

对于大约 200 万行和 100 万组的大型数据帧，如何快速计算？

其实瓶颈是groupby。你实际上不需要使用groupby对于这个具体问题。到sort数据框由GROUP，履行diff在排序后的数据帧上和filter by MASK应该没问题。我们必须使用kind='mergesort'保持排序前后组内的顺序不变，

假设每个组的第一个元素的 MASK 始终为 False （因为第一个元素对于差分运算没有意义），您可以使用此

pd.concat([df.VALUE, df.sort_values(by="GROUP", kind='mergesort').VALUE.diff()], axis=1, keys=['VALUE', 'DIFF'])[df.MASK]

性能测试：

MAXN = 200000
GROUPS = 10000
df = pd.DataFrame({"GROUP": np.ceil(np.random.rand(MAXN)*GROUPS), "VALUE": np.ceil(np.random.rand(MAXN)*10000), "MASK":np.floor(np.random.rand(MAXN)*2).astype("bool")})

%timeit t1 = pd.concat([df.VALUE, df.groupby('GROUP').VALUE.diff()], axis=1, keys=['VALUE', 'DIFF'])[df.MASK]
# 1 loop, best of 3: 1.28 s per loop

%timeit t2 = pd.concat([df.VALUE, df.sort_values(by="GROUP", kind='mergesort').VALUE.diff()], axis=1, keys=['VALUE', 'DIFF'])[df.MASK]
#10 loops, best of 3: 63.1 ms per loop

#MAXN = 2000000
#GROUPS = 1000000
%timeit t2 = pd.concat([df.VALUE, df.sort_values(by="GROUP", kind='mergesort').VALUE.diff()], axis=1, keys=['VALUE', 'DIFF'])[df.MASK]
#1 loop, best of 3: 1.24 s per loop

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Pandas：与之前值的差异的相关文章

Flask-login：无法理解它是如何工作的

我试图理解如何Flask Login https flask login readthedocs org en latest works 我在他们的文档中看到他们使用预先填充的用户列表我想使用数据库存储的用户列表但是我不明白其中的一些
Celery 任务分析

正如我所看到的top公用事业celery进程消耗大量CPU时间所以我想介绍一下它我可以在开发人员机器上手动执行此操作如下所示 python m cProfile o test date Y m d T prof manage py c
如何在Python中增加文件名

我正在尝试保存大量需要分成不同文件的数据如下所示数据 1 dat 数据 2 dat 数据 3 dat 数据 4 dat 我如何在Python中实现这个 from itertools import count filename data
如何在 python 3.x 中使用 string.replace()

The string replace 在 python 3 x 上已弃用这样做的新方法是什么与 2 x 一样使用str replace https docs python org library stdtypes html str r
Django 代理模型的继承和多态性

我正在开发一个我没有启动的 Django 项目我面临着一个问题遗产我有一个大模型在示例中简化称为MyModel这应该代表不同种类的物品的所有实例对象MyModel应该具有相同的字段但方法的行为根据项目类型的不同而有很大差异到目
通过 Scrapy 抓取 Google Analytics

我一直在尝试使用 Scrapy 从 Google Analytics 获取一些数据尽管我是一个完全的 Python 新手但我已经取得了一些进展我现在可以通过 Scrapy 登录 Google Analytics 但我需要发出 AJAX
Python 中的 Lanczos 插值与 2D 图像

我尝试重新缩放 2D 图像灰度图像大小为 256x256 所需输出为 224x224 像素值范围从 0 到 1300 我尝试了两种使用 Lanczos 插值来重新调整它们的方法首先使用PIL图像 import numpy as np
Python 的键盘中断不会中止 Rust 函数 (PyO3)

我有一个使用 PyO3 用 Rust 编写的 Python 库它涉及一些昂贵的计算单个函数调用最多需要 10 分钟从 Python 调用时如何中止执行 Ctrl C 好像只有执行结束后才会处理所以本质上没什么用最小可重现示例 Ca
SQLAlchemy 通过关联对象声明式多对多自连接

我有一个用户表和一个朋友表它将用户映射到其他用户因为每个用户可以有很多朋友这个关系显然是对称的如果用户A是用户B的朋友那么用户B也是用户A的朋友我只存储这个关系一次除了两个用户 ID 之外 Friends 表还有其他字段因此
将 Matplotlib 误差线放置在不位于条形中心的位置

我正在 Matplotlib 中生成带有错误栏的堆积条形图不幸的是某些层相对较小且数据多样因此多个层的错误条可能重叠从而使它们难以或无法读取 Example 有没有办法设置每个误差条的位置即沿 x 轴移动它以便重叠的线显示在彼此
使 django 服务器可以在 LAN 中访问

我已经安装了Django服务器可以如下访问 http localhost 8000 get sms http 127 0 0 1 8000 get sms 假设我的IP是x x x x 当我这样做时从同一网络下的另一台电脑 my ip
通过最小元素比较对 5 个元素进行排序

我必须在 python 中使用元素之间的最小比较次数来建模对 5 个元素的列表进行排序的执行计划除此之外复杂性是无关紧要的结果是一个对的列表表示在另一时间对列表进行排序所需的比较我知道有一种算法可以通过 7 次比较总是在元素之间
python 相当于 R 中的 get() （= 使用字符串检索符号的值）

在 R 中 get s 函数检索名称存储在字符变量向量中的符号的值s e g X lt 10 r lt XVI s lt substr r 1 1 X get s 10 取罗马数字的第一个符号r并将其转换为其等效整数尽管花了一些时间翻
以编程方式停止Python脚本的执行？ [复制]

这个问题在这里已经有答案了是否可以使用命令在任意行停止执行 python 脚本 Like some code quit quit at this point some more code that s not executed sys e
Python pickle：腌制对象不等于源对象

我认为这是预期的行为但想检查一下也许找出原因因为我所做的研究结果是空白我有一个函数可以提取数据创建自定义类的新实例然后将其附加到列表中该类仅包含变量然后我使用协议 2 作为二进制文件将该列表腌制到文件中稍后我重新运行脚本
如何使用 OpencV 从 Firebase 读取图像？

有没有使用 OpenCV 从 Firebase 读取图像的想法或者我必须先下载图片然后从本地文件夹执行 cv imread 功能有什么办法我可以使用cv imread link of picture from firebase 您可以
绘制方程

我正在尝试创建一个函数它将绘制我告诉它的任何公式 import numpy as np import matplotlib pyplot as plt def graph formula x range x np array x rang
从 Flask 访问 Heroku 变量

我已经使用以下命令在 Heroku 配置中设置了数据库变量 heroku config add server xxx xxx xxx xxx heroku config add user userName heroku config add
添加不同形状的 numpy 数组

我想添加两个不同形状的 numpy 数组但不进行广播而是将缺失值视为零可能最简单的例子是 1 2 3 2 gt 3 2 3 or 1 2 3 2 1 gt 3 2 3 1 0 0 我事先不知道形状我正在弄乱每个 np shape
在Python中获取文件描述符的位置

比如说我有一个原始数字文件描述符我需要根据它获取文件中的当前位置 import os psutil some code that works with file lp lib open path to file p psutil Pro

随机推荐

即使在修改数据后，如何使用plotly为选定点返回相同的event_data信息

我正在尝试做一些看似简单的事情当用户单击数据点或使用套索选择选择多个点时我想以不同的颜色绘制这些点为了做到这一点我查看选择了哪些点并添加一个col变量到数据框我告诉 ggplot 根据该列为点着色它确实适用于第一次选择但只要
SHGetKnownFolderPath / Environment.GetFolderPath() 返回公共文档的错误值

在尝试解决问题时我遇到了一个有点奇怪的错误CommonDocuments目录在 CommonDocuments 目录被删除后它不断解析到错误的目录重定向移动使用 Windows 资源管理器上下文菜单中的属性 gt 路径移动到新
如何使用java将doc、pdf和图像文件保存到mysql数据库？

我正在努力拯救 doc pdf txt和图像文件使用 hibernate jsf 和 mysql 存储到我的数据库中我创建了一个列来保存 BLOB 类型的文件如果我在储蓄 txt输入然后文件就可以正确保存如果我尝试保存任何其他格式的文
如何通过单击电子邮件中发送的超链接将用户重定向到移动应用程序或网站？是否需要使用 PHP 在服务器端处理？

我有一个已经使用开发的网站PHPFox并且运行良好现在 iOS 开发团队已经在 iOS 中创建了一个移动应用程序其功能与网站相同用户可以使用此应用程序执行他她可以在网站上执行的所有操作换句话说我们可以说这个应用程序是现有网站的复
RETROFIT POST Realm 对象

我有以下 RETROFIT API POST payments Observable
AVI、MP4 和“原始”h264 流中的 h264。 NAL 单元格式不同（或 ffmpeg bug）

TL DR 我想从 AVI MP4 文件读取原始 h264 流甚至是损坏不完整的几乎所有有关 h264 的文档都告诉我它由 NAL 数据包组成好的几乎所有地方都告诉我数据包应该以这样的签名开头00 00 01 or 00 00
Kafka Spring 集成：Kafka 消费者未收到标头

我正在使用 Kafka Spring Integration 使用 kafka 发布和消费消息我看到有效负载已正确从生产者传递到消费者但标头信息在某处被覆盖 ServiceActivator inputChannel fromKafka
无法创建 Android 模拟器：无法解析 AVD 配置文件

无头 Linux 64 位 Jenkins 正在尝试创建 Android 模拟器但因以下设置而失败 android Using Android SDK opt android sdk linux android Creating Andr
为什么我必须先使用 strcpy()，然后再使用 strcat()？

为什么此代码会产生运行时问题 char stuff 100 strcat stuff hi strcat stuff there 但这不是吗 char stuff 100 strcpy stuff hi strcat stuff there
扫描仪仅读取第一个单词而不是行

在我当前的程序中一种方法要求用户输入产品的描述作为String输入但是当我稍后尝试打印此信息时只有该信息的第一个单词String显示这可能是什么原因造成的我的方法如下 void setDescription Product aP
如何覆盖嵌套的 NPM 依赖项版本？

我想使用grunt contrib jasmineNPM 包它有各种依赖关系部分依赖关系图如下所示 email protected email protected email protected 不幸的是这个版本有一个错误phanto
SciKit-Learn 标签编码器导致错误“参数必须是字符串或数字”

我有点困惑在这里创建一个 ML 模型我正处于尝试从大数据帧 180 列中获取分类特征并对其进行单热处理的步骤以便我可以找到特征之间的相关性并选择最佳特征这是我的代码 import labelencoder from skl
在python中使用beautifulsoup解析html时<>更改为<和>

使用 Beautifulsoup 处理 html 时被转换为 lt and gt 由于标签锚全部转换整个汤失去了结构有什么建议吗 Setting formatter None可能有帮助 http www crummy com soft
窗口加载和 WPF

我在 Windows 2012 中有一个 WPF 项目我需要在 Window Loaded 事件中加载一些信息不过我需要在视图模型中而不是在代码隐藏中执行此操作我正在尝试使用以下代码在我的 xaml 中
Visual Studio添加与dll同名的可执行文件

在 Visual Studio 2008 中我添加了 WinScp dll 在项目根目录中作为引用并且立即出现了一个黄色图标在编译时找不到类型或命名空间名称 WinSCP 是否缺少 using 指令或程序集引用已解决的文件图像错
AVPlayerItem 失败，并显示 AVStatusFailed 和错误代码“无法解码”

我遇到了一个奇怪的问题希望有人能帮忙在我的 iOS 应用程序中我使用以下命令创建带有自定义配乐的视频MutableComposition通过组合用户照片库中的视频和应用程序包中的音频文件然后我用一个AVPlayer and AVPl
使用 NLog 记录波斯语消息

在我的 ASP NET MVC 项目中我在 Web config 中有以下配置
Android 工具栏后退箭头，带有 WhatsApp 等图标

如何在 Android 工具栏中显示带后退箭头的图标如 WhatsApp 我使用下面的代码在工具栏中设置后退箭头和图标 toolbar Toolbar findViewById R id toolbar setSupportActionB
JQuery Ajax 在 url 中添加哈希

我这里有使用 struts2 jquery 插件的代码 h4 Choose A task h4 ul ul
Pandas：与之前值的差异

给定一个看起来像这样的 Pandas 数据框 GROUP VALUE MASK 1 5 false 2 10 false 2 20 false 1 7 true 3 17 false 3 18 false 1 100 false 1 200

Pandas：与之前值的差异

Pandas：与之前值的差异 的相关文章

随机推荐

热门标签

Pandas：与之前值的差异的相关文章