groupby后聚合的列组合

2023-12-22

Question

寻找类似的东西

df.groubpy('key').aggregate(combination(columnA, columnB))

代替

df['combination'] = combination(columnA, columnB)
df.groupby('key')['combination'].aggregate()

唯一的要求是列的组合是在groupby之后计算的。

描述

对于某些情况，我似乎很自然，逻辑上明智，首先进行分组，然后进行聚合。

一个示例是使用相同组的不同列组合的不同聚合函数。

寻找

groupby
选择列的组合
使用相应的聚合函数

代替

创建所有必要的列（对于每个聚合函数）
groupby（对于每个聚合函数）
应用特定的聚合函数

Example

key     ColumnA  ColumnB
key1       1        1
key2       2        2
key1       3        3
key3       4        4
key2       5        5

#can do
df['combination'] = df.columnA * df.columnB
df.groupby('key').mean()

#looking for
grouped = df.groupby('key')
grouped.mean(columnA * columnB)

好吧，所以我认为你正在寻找的答案是 - 我们不这样做，因为 python 中的矢量化

考虑下面的代码。

现在本质上 - python 通常被优化为以向量化的方式执行某些数学运算（采取numpy or pandas例如） - 这意味着 - 将其应用于整个向量比将其分解为块然后执行它更快。

So e.g. df["A"].mul(df["B"])将比以下更快：df.apply(lambda X: X["A"]*X["B"], axis=0)。分组也是如此——这样更具可扩展性。

尝试下面的代码 - 这本质上就是你所指的 - 所以在之前和之后进行操作groupby(...)。即使您实现了额外的列，矢量化解决方案的扩展速度也非常快 - 处理的行越多，您将看到的差异就越大。

Edit

我在分组数据上添加了矢量化解决方案，所以我们有：

(1) 我们分组，我们逐行懒惰地评估

(2)我们以向量化的方式处理完整的df，我们应用内置聚合函数进行分组

(3)我们分组，我们以向量化的方式处理分组，按组，我们做聚合函数

本质上 - 从结果中我们看到分解成块会减慢处理速度，无论是按组还是按记录 - 因此矢量化解决方案比我们可以在其上应用的任何类型的自定义解决方案都具有更好的扩展性。

import pandas as pd
import numpy as np
import time

x=np.random.randint(1,9,(3000,5))
df=pd.DataFrame(x, columns=[f"column{l}" for l in list("ABCDE")])
df["cat"]=np.random.choice([f"key{l}" for l in list("ABCDEFG")], size=3000)
df2=df3=df
#print(df)
s=time.time()
df.groupby("cat").apply(lambda z: np.prod(z.values, axis=1).mean()).pipe(print)
e=time.time()-s
print(f"method 1: {e} s")

s=time.time()
df2["prod"]=np.prod(df[[f"column{l}" for l in list("ABCDE")]], axis=1)
df2.groupby("cat")["prod"].mean().pipe(print)
e=time.time()-s
print(f"method 2: {e} s")

s=time.time()
df3=list(map(lambda x: (x[0], np.prod(x[1][[f"column{l}" for l in list("ABCDE")]], axis=1).mean()), df3.groupby("cat")))
print(df3)
e=time.time()-s
print(f"method 3: {e} s")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Aggregate

pandasgroupby