Python 中的 R group_by() + rleid() 等效项

2024-01-05

我在 Python 中得到了以下数据框：

df = pd.DataFrame.from_dict({'measurement_id': np.repeat([1, 2], [6, 6]),
                         'min': np.concatenate([np.repeat([1, 2, 3], [2, 2, 2]), 
                                                np.repeat([1, 2, 3], [2, 2, 2])]),
                         'obj': list('AB' * 6),
                         'var': [1, 2, 1, 2, 2, 1, 2, 1, 2, 1, 1, 1]})

首先，在由以下定义的每个组中object，我想将 id 分配给唯一的运行measurement_id and var列。如果这些列的任何值发生变化，它将开始新的运行，并应分配新的 ID。所以

df['rleid_output'] = [1, 1, 1, 1, 2, 2, 3, 3, 3, 3, 4, 3]

然后，对于由以下定义的每个组rleid_output我想检查一下需要多少分钟（min专栏）跑步持续给了我expected_output column:

df['expected_output'] = [2, 2, 2, 2, 1, 1, 2, 3, 2, 3, 1, 3]

如果是R，我会按如下方式进行：

df <- data.frame(measurement_id = rep(1:2, each = 6),
           min = rep(rep(1:3, each = 2), 2),
           object = rep(LETTERS[1:2], 6),
           var = c(1, 2, 1, 2, 2, 1, 2, 1, 2, 1, 1, 1))
df %>% 
  group_by(object) %>% 
  mutate(rleid = data.table::rleid(measurement_id, var)) %>% 
  group_by(object, rleid) %>% 
  mutate(expected_output = last(min) - first(min) + 1)

所以我主要需要的是Rdata.table::rleid与 Python 兼容的等效项pd.DataFrame.groupby条款。有什么想法如何解决这个问题吗？

@Edit：新的、更新的数据框示例：

df = pd.DataFrame.from_dict({'measurement_id': np.repeat([1, 2], [6, 6]),
                         'min': np.concatenate([np.repeat([1, 2, 3], [2, 2, 2]), 
                                                np.repeat([1, 2, 3], [2, 2, 2])]),
                         'obj': list('AB' * 6),
                         'var': [1, 2, 2, 2, 1, 1, 2, 1, 2, 1, 1, 1]})
df['rleid_output'] = [1, 1, 2, 1, 3, 2, 4, 3, 4, 3, 5, 3]
df['expected_output'] = [1, 2, 1, 2, 1, 1, 2, 3, 2, 3, 1, 3]

更新答案

问题是min每组中的列measurement_id, obj, var应维持秩序。我们可以通过 group by 来检查这一点measurement_id, obj, var然后检查是否存在差异min列大于1。如果是这样，我们将其标记为唯一的持续时间expected_output:

df['grouper'] = (df.groupby(['measurement_id', 'obj', 'var'])['min']
                 .apply(lambda x: x.diff().fillna(1).eq(1))
                )

df['expected_output'] = (
    df.groupby(['measurement_id', 'obj', 'var'])['grouper'].transform('sum').astype(int)
)

df = df.drop(columns='grouper')

    measurement_id  min obj  var  expected_output
0                1    1   A    1                1
1                1    1   B    2                2
2                1    2   A    2                1
3                1    2   B    2                2
4                1    3   A    1                1
5                1    3   B    1                1
6                2    1   A    2                2
7                2    1   B    1                3
8                2    2   A    2                2
9                2    2   B    1                3
10               2    3   A    1                1
11               2    3   B    1                3

旧答案，遵循OP的逻辑

我们可以通过使用来实现这一点GroupBy.diff得到你的rleid_output，基本上每次都有一个唯一的标识符var每个的变化measurement_id& obj

之后使用GroupBy.nunique来测量的量minutes:

rleid_output = df.groupby(['measurement_id', 'obj'])['var'].diff().abs().bfill()
df['expected_output'] = (df.groupby(['measurement_id', 'obj', rleid_output])['min']
                         .transform('nunique'))

    measurement_id  min obj  var  expected_output
0                1    1   A    1                2
1                1    1   B    2                2
2                1    2   A    1                2
3                1    2   B    2                2
4                1    3   A    2                1
5                1    3   B    1                1
6                2    1   A    2                2
7                2    1   B    1                3
8                2    2   A    2                2
9                2    2   B    1                3
10               2    3   A    1                1
11               2    3   B    1                3

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

r

pandas

runlengthencoding

Python 中的 R group_by() + rleid() 等效项的相关文章

在 Django Admin 中调整字段大小

在管理上添加或编辑条目时 Django 倾向于填充水平空间但在某些情况下当编辑 8 个字符宽的日期字段或 6 或 8 个字符的 CharField 时这确实是一种空间浪费字符宽然后编辑框最多可容纳 15 或 20 个字符我如何告
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
如何在R中同时对三个字段进行网络分析

如何在 R 中同时对三个字段进行网络分析下面是示例数据以及desired output在最后一栏中 df lt data frame stringsAsFactors FALSE id 1 c ABC ABC BCD CDE DEF EF
Tensorboard SyntaxError：语法无效

当我尝试制作张量板时出现语法错误尽管开源代码我还是无法理解我尝试搜索张量板的代码但不清楚即使我不擅长Python 我这样写路径C Users jh902 Documents logs因为我正在使用 Windows 10 但我不确定
如何使用 Selenium 和 ChromeDriver 解决 TypeError: 'module' object is not callable 错误 [重复]

这个问题在这里已经有答案了代码试验 from selenium import webdriver from selenium webdriver chrome options import Options as Chromeoptions
Python 3：将字符串转换为变量[重复]

这个问题在这里已经有答案了我正在从 txt 文件读取文本并且需要使用我读取的数据之一作为类实例的变量 class Sports def init self players 0 location name self players pla
通过Python连接到Bigquery：ProjectId和DatasetId必须非空

我编写了以下脚本来通过 SDK 将 Big Query 连接到 Python 如下所示 from google cloud import bigquery client bigquery Client project My First Pr
当字段是数字时怎么说...在 mongodb 中匹配？

所以我的结果中有一个名为城市的字段结果已损坏有时它是一个实际名称有时它是一个数字以下代码显示所有记录 db zips aggregate project city substr city 0 1 sort city 1 我需要修
如何匹配 R 中的所有匹配项？

我有 1000 个名字的列表说A 我还有另外 5 个名字的清单说B 我想找出这5个名字出现在1000个号码列表中的第几行例如 Amy 在 A 中可以出现 25 次 B 里有艾米我想知道 Amy 出现在 A 中的哪些行我以前使用过
尽管我已在 python ctypes 中设置了信号处理程序，但并未调用它

我尝试过使用 sigaction 和 ctypes 设置信号处理程序我知道它可以与python中的信号模块一起使用但我想尝试学习当我向该进程发送 SIGTERM 时但它没有调用我设置的处理程序只打印终止为什么它不调用处理程序
Protobuf 如何编码 oneof 消息结构

对于这个 python 程序在编码时运行 protobuf 编码会给出以下输出 0a 10 08 7f8a 0104 08 02 10 0392 0104 08 02 10 03 18 01 我不明白的是为什么8a后面有一个01 为什么9
具有 dplyr、tidyverse 和 broom 的相关矩阵 - P 值矩阵

全部我想使用以下方法从相关矩阵中获取 p 值dplyr 和或扫帚包并同时测试多个变量我知道其他方法但 dplyr 对我来说似乎更简单更直观此外 dplyr 需要关联每个变量以获得特定的 p 值这使得该过程更容易更快我检查
R 中的 Websocket

我设法在 R 中建立到 Mtgox websocket 的连接规格如下 url https socketio mtgox com mtgox Currency USD https socketio mtgox com mtgox Curr
python 中的“槽包装器”是什么？

object dict 和其他地方的隐藏方法设置为这样的
如何以正确的方式为独立的Python应用程序制作setup.py？

我读过几个类似的主题但还没有成功我觉得我错过或误解了一些基本的事情这就是我失败的原因我有一个用 python 编写的应用程序我想在标准 setup py 的帮助下进行部署由于功能复杂它由不同的 python 模块组成但单独
每当使用 import cv2 时 OpenCV 都会出错

我在终端上使用 pip3 install opencv contrib python 安装了 cv2 并且它工作了但是每当我尝试导入 cv2 或运行导入了 cv2 的 vscode 文件时在 python IDLE 上它都会说 Trac
等待子进程使用 os.system

我用了很多os system在 for 循环内调用创建后台进程如何等待所有后台进程结束 os wait告诉我没有子进程 ps 我使用的是Solaris 这是我的代码 usr bin python import subprocess imp
如何使用 PrimaryKeyRelatedField 更新多对多关系上的类别

Django Rest 框架有一个主键相关字段 http www django rest framework org api guide relations primarykeyrelatedfield其中列出了我的 IDmany to m
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS

随机推荐

Laravel：不同路径的不同 api 速率限制

我需要为不同的路径设置不同的速率限制敌人的例子 On path users我希望每分钟 60 个请求的速率限制而路径 stats我希望速率限制为每分钟 5 个请求我尝试了下一种方法 Route group middleware gt
在这种代码中“Select 0 from”在做什么？

有人可以帮我理解从以下位置选择 0 是什么意思吗 delete from table1 where cond1 and cond2 and cond3 and not exists select 0 from table2 where c
读取空行 C++

我遇到的情况是我有一个循环每次它读取一个字符串但我不知道如何读取空白输入即如果用户什么都不输入并按回车键它会保留在那里我想将其读取为字符串并移至下一个输入下面是代码 int times 4 while times string
如何在 JSON 模式中使用定义 (draft-04)

我正在使用的其余服务响应类似于以下示例我在这里仅包含 3 个字段但还有更多字段 results type Person name Mr Bean dateOfBirth 14 Dec 1981 type Company name Pi
指定 wct-local 测试的浏览器位置

Polymer 入门套件包含用于对自定义元素进行单元测试的 Web 组件测试器 In wct conf json您可以指定运行测试的浏览器 suites app test plugins local browsers firefox 不幸的
Android AGP 8 + Gradle 8 + Kotlin 1.8 导致 Kapt 出现错误

我刚刚更新到Android Studio Flamingo 2022 2 1 现在我得到这个错误 Execution failed for task app kaptGenerateStubsDebugKotlin gt compileDe
如何用git“分割”文件

如果我必须遵循我的文件发展 branch file rb class Code def methodA aA1 end def methodB bB2 end end 但在我的master分支我想将方法分成不同的文件 in file rb
如何使用 org.hibernate.action.spi.AfterTransactionCompletionProcess？

我发现我真的很想使用这个类 org hibernate action spi AfterTransactionCompletionProcess http docs jboss org hibernate orm 3 6 javadocs
如何在 PerfView 中查看昂贵的方法

我创建了一个简单的控制台应用程序并通过 Run Command gt PerfMonTest exe 从 PerfView 执行它我获取日志文件并查看应用程序的进程正如预期的那样它很昂贵 99 CPU 但是当我想深入研究昂贵的方法时
xpath - 如何选择此提交按钮？

我怎样才能选择这个提交按钮 li class action input action li
JsonDeserializer 不适用于类，仅适用于类的单个元素

我创建了一个新的反序列化器能够将空字符串写为 null public class CustomDeserializer extends JsonDeserializer
如何在 UserControl 中绑定集合依赖属性

这不是重复的当我失败时我尝试查看类似的帖子但没有成功我不明白为什么OnUCItemsSourceChanged是不是叫我很确定我错过了一些简单的东西但我找不到它 I have Window其中包含UserControl1它附加了
在 Flex/AS3 中，您会使用什么来对数字进行零填充？

重复的this https stackoverflow com questions 611873 ruby like question make this function shorter actionscript 3 611961 611
如何创建在全屏应用程序上显示的 Javascript/Chrome 通知

我有一个 Web 应用程序 HTML5 CSS3 JQuery 它使用两种方法显示通知类似咆哮的 jquery 插件 javascript html 或使用 Chrome 通知 API 仅当您使用 Chrome 时我想要的是创建一个类似
XML 文件中的条件替换

我正在使用 PowerShell 递归地替换 XML 文件中的文本该脚本在替换时工作正常但是 XML 文件也有不应替换的文件路径这是当前正在使用的脚本 if content match web site web site conten
线性规划优化和梯度下降优化之间有什么区别？

在线性规划问题中我们制定两个线性函数和一个优化函数我们找到两个线性函数相交的点并将这些值替换到优化函数中以获得最大值或最小值这与梯度优化有什么不同任何人都可以从数学上详细说明这一点两种方法都达到全局最大值或最小值吗哪个更好线
了解稳定基线模型中的total_timesteps参数

我正在阅读原版PPO纸 https arxiv org pdf 1707 06347 pdf并尝试将其与输入参数相匹配稳定基线 PPO2 https stable baselines readthedocs io en master mod
需要帮助：“错误的架构”导致应用程序在 iOS 7 中启动时崩溃，但在 iOS 8 中运行良好

我的应用程序在 iOS 7 1 中启动时崩溃但在 iOS 8 1 中运行良好我得到的错误是这样的 dyld 库未加载 System Library Frameworks AVKit framework AVKit 参考自 MY APP原
WorkManager google api：每个定期工作程序执行等待 15 分钟？

有没有办法测试PERIODICWorkManager Google API 的工作人员无需每次执行等待至少 15 分钟我的意思是它是一个调试应用程序我通过 Android Studio 运行它我不想等待这么长时间来测试我的功能 Yo
Python 中的 R group_by() + rleid() 等效项

我在 Python 中得到了以下数据框 df pd DataFrame from dict measurement id np repeat 1 2 6 6 min np concatenate np repeat 1 2 3 2 2 2

Python 中的 R group_by() + rleid() 等效项

Python 中的 R group_by() + rleid() 等效项 的相关文章

随机推荐

热门标签

Python 中的 R group_by() + rleid() 等效项的相关文章