跨行对 Pandas 数据框进行分组

2024-03-02

我有一个这样的csv：

client1,client2,client3,client4,client5,client6,amount
,,,Comp1,,,4.475000
,,,Comp2,,,16.305584
,,,Comp3,,,4.050000
Comp2,Comp1,,Comp4,,,21.000000
,,,Comp4,,,30.000000
,Comp1,,Comp2,,,5.137500
,,,Comp3,,,52.650000
,,,Comp1,,,2.650000
Comp3,,,Comp3,,,29.000000
Comp5,,,Comp2,,,20.809000
Comp5,,,Comp2,,,15.100000
Comp5,,,Comp2,,,52.404000

将其读入 pandas 数据框 df 后，我想分两步进行聚合：

Step1:

首先，我总结一下金额：

client1 client2 client3 client4 client5 client6  amount
                        Comp1                    7.125000
                        Comp2                    16.305584
                        Comp3                    56.700000
                        Comp4                    30.000000
         Comp1          Comp2                    5.137500
Comp2    Comp1          Comp4                    21.000000
Comp3                   Comp3                    29.000000
Comp5                   Comp2                    88.313000

然后，我想按每个客户端名称进行聚合，这样如果像第 5 组那样涉及多个客户端，则 5.1375 必须在 Comp1 和 Comp2 之间平均分配。尝试了这样的方法：

df.groupby(['client1','client2','client3','client4','client5','client6']).apply(lambda x: x['amount'].sum()/len(x) if x.any().nunique()>=1 else x['amount'].sum())



client1 client2 client3 client4 client5 client6 0
0                           Comp1                   3.562500
1                           Comp2                   16.305584
2                           Comp3                   28.350000
3                           Comp4                   30.000000
4           Comp1           Comp2                   5.137500
5   Comp2   Comp1           Comp4                   21.000000
6   Comp3                   Comp3                   29.000000
7   Comp5                   Comp2                   29.437667

预期输出为：

Client Amount 
Comp1  4.475+21/3+5.1375/2+2.65 = 16.69375
Comp2  16.305584+21/3+20.809/2+15.10/2+52.404/2 = 67.462084
Comp3  4.05+52.65+29 = 85.7
Comp4  21/3+30 = 37
Comp5  20.809/2+15.10/2+52.404/2 = 44.1565

我尝试使用sum(axis=0)但没有用。

我们可以在这里使用一些数学知识

cols = ['amount'] 
# Divide the amount by non null fields 
df['new'] = df['amount']/df.drop(cols,1).notnull().sum(1)

#Set the index as new by droping amount column, unstack and drop the nans.
x = df.drop(cols,1).set_index('new').unstack().dropna()

#Create dataframe just from amount and the clients
ndf = pd.DataFrame({'amount':x.index.droplevel(0).values,'clients':x.values})

#Groupby client and get the sum 
ndf.groupby('clients').sum()

Output:



          amount
clients           
Comp1    16.360417
Comp2    69.697501
Comp3    85.700000
Comp4    36.666667
Comp5    44.156500

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

pandas

pandasgroupby

跨行对 Pandas 数据框进行分组的相关文章

为 Anaconda Python 安装 psycopg2

我有 Anaconda Python 3 4 但是每当我运行旧代码时我都会通过输入 source activate python2 切换到 Anaconda Python 2 7 我的问题是我为 Anaconda Python 3 4 安
Python（Selenium）：如何通过登录重定向/组织登录登录网站

我不是专业程序员所以请原谅任何愚蠢的错误我正在做一些研究我正在尝试使用 Selenium 登录数据库来搜索大约 1000 个术语我有两个问题 1 重定向到组织登录页面后如何使用 Selenium 登录 2 如何检索数据库在我解决
通过最小元素比较对 5 个元素进行排序

我必须在 python 中使用元素之间的最小比较次数来建模对 5 个元素的列表进行排序的执行计划除此之外复杂性是无关紧要的结果是一个对的列表表示在另一时间对列表进行排序所需的比较我知道有一种算法可以通过 7 次比较总是在元素之间
使用带有关键字参数的 map() 函数

这是我尝试使用的循环map功能于 volume ids 1 2 3 4 5 ip 172 12 13 122 for volume id in volume ids my function volume id ip ip 我有办法做到这一点
从字符串中删除识别的日期

作为输入我有几个包含不同格式日期的字符串例如彼得在16 45 我的生日是1990年7月8日 On 7 月 11 日星期六我会回家 I use dateutil parser parse识别字符串中的日期在下一步中我想从字符串中删除
绘制随时间变化的分类数据计数

我有一个数据框 df 其中有一列包含分类数据 ETH 带有 DateTimeIndex 我想绘制类别counts随着时间的推移它们按天索引我最好按年绘制它们 df pd DataFrame County 0 Bexar 3 Nueces
SQLALchemy .query：类“Car”的未解析属性引用“query”

我有一个这里已经提到的问题https youtrack jetbrains com issue PY 44557 https youtrack jetbrains com issue PY 44557 但我还没有找到解决方案我使用 Pyt
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
绘制方程

我正在尝试创建一个函数它将绘制我告诉它的任何公式 import numpy as np import matplotlib pyplot as plt def graph formula x range x np array x rang
如何在ipywidget按钮中显示全文？

我正在创建一个ipywidget带有一些文本的按钮但按钮中未显示全文我使用的代码如下 import ipywidgets as widgets from IPython display import display button wid
如何在Python中对类别进行加权随机抽样

给定一个元组列表其中每个元组都包含一个概率和一个项目我想根据其概率对项目进行采样例如给出列表 3 a 4 b 3 c 我想在 40 的时间内对 b 进行采样在 python 中执行此操作的规范方法是什么我查看了 random 模
Fabric env.roledefs 未按预期运行

On the 面料网站 http docs fabfile org en 1 10 usage execution html 给出这个例子 from fabric api import env env roledefs web hosts
每个 X 具有多个 Y 值的 Python 散点图

我正在尝试使用 Python 创建一个散点图其中包含两个 X 类别 cat1 cat2 每个类别都有多个 Y 值如果每个 X 值的 Y 值的数量相同我可以使用以下代码使其工作 import numpy as np import mat
有没有办法检测正在运行的代码是否正在上下文管理器内执行？

正如标题所述有没有办法做到这样的事情 def call back if called inside context print running in context else print called outside context 这将
类型错误：预期单个张量时的张量列表 - 将 const 与 tf.random_normal 一起使用时

我有以下 TensorFlow 代码 tf constant tf random normal time step batch size 1 1 我正进入状态TypeError List of Tensors when single Te
Conda SafetyError：文件大小不正确

使用创建 Conda 环境时conda create n env name python 3 6 我收到以下警告 Preparing transaction done Verifying transaction SafetyError Th
识别 pandas 数据框中各组之间的差异

我有一个按日期和 ID 索引的 pandas 数据框我想识别日期之间增删的ID 将 ID 添加到另一个数据帧以及添加删除的日期 date ID value 12 31 2010 13 0 124409 9 0 555959 1 0 7
从列表指向字典变量

假设你有一个清单 a 3 4 1 我想用这些信息来指向字典 b 3 4 1 现在我需要的是一个常规看到该值后在 b 的位置内读写一个值我不喜欢复制变量我想直接改变变量b的内容假设b是一个嵌套字典你可以这样做 reduce di
Python Selenium：如何在文本文件中打印网站上的值？

我正在尝试编写一个脚本该脚本将从 tulsaspca org 网站获取以下 6 个值并将其打印在 txt 文件中最终输出应该是 905 4896 7105 23194 1004 42000 放置的动物的 HTML span class
Statsmodels.formula.api OLS不显示截距的统计值

我正在运行以下源代码 import statsmodels formula api as sm Add one column of ones for the intercept term X np append arr np ones 50

随机推荐

如何在 JavaScript 中查找到已知位置的距离

在浏览器中使用 JavaScript 如何确定从我当前位置到另一个我有纬度和经度的位置的距离如果您的代码在浏览器中运行您可以使用 HTML5 地理定位 API window navigator geolocation getCurren
Angular JS：如何绑定到 Promise

我正在尝试将承诺与视图绑定我不知道你是否可以直接这样做但这就是我正在尝试做的有什么想法我做错了吗注意源代码在超时方面做了一些设计并使用了静态数据但这是为了使代码更易于诊断 EDIT JSFiddle 页面 http jsfid
与 REST-assured 相比，使用 SOAP UI 来自动化 CI 的 REST 服务是否有优势

我必须在我的项目中自动化 REST API 测试并将其集成到 jenkins 中的现有 CI 中我即将开始使用 REST assured 进行编码但是我碰巧看到 SOAP UI REST 教程并了解到 SOAP UI 中有一个 Mave
如何在 C# 中读取二进制文件？

我有一个存在于文本和二进制图像中的文件我需要从 0 到 30 位置读取相关文本而 31 上的位置将是二进制格式的图像我必须遵循哪些步骤才能解决该问题目前我正在尝试使用它来阅读它FileStream 然后我将 FileStream
.NET 使用错误的 2.0 machine.config 而不是 4.0

我在 IIS 7 0 Windows Server 2008 R1 上安装了 NET Web 应用程序我已在服务器上安装了 NET 4 0 并为 4 0 配置了应用程序池和集成管道由于某种原因我收到以下错误 500 19 The co
通过三种方法计算 CCA

我最近研究了 CCA 的概念并想在 MATLAB 中实现它但是有一个现有的 matlab 命令佳能 http in mathworks com help stats canoncorr html展示我想编写自己的代码我对其进行了广泛
SQL 如何根据现有列的计数为新列创建值？

我有一个正在读取的临时表我想查看只有两个等级值的列之一 3 或 4 并构建两个新列一个保存 3 的计数和另一个用于保存 4 的计数按特定分组我的代码看起来像这样 Select Max Counting as Total studen
使用 VPC 配置添加 AWS Lambda 导致访问 S3 时超时

我尝试从 AWS Lambda 访问 S3 和 VPC 上的资源但由于我将 AWS Lambda 配置为访问 VPC 因此访问 S3 时超时这是代码 from future import print function import bo
单元测试覆盖调用 super() 的方法

我试图找出为重写方法编写单元测试的最佳方法该方法调用 super 作为最后一步基本上我想在基类中使用参数之前对其进行处理下面是一个方法的示例 Override public JobExecution run Job job JobP
如果没有尾部斜杠，Nginx 会导致 301 重定向

我在使用 NAT 的虚拟机中运行 nginx 当我从主机访问它时遇到重定向问题按预期工作 http localhost 8080 test index htm works http localhost 8080 test works 没有
Java 中有标准的 Option 或 Nullable 类吗？

Nullable C 的含义有点不同但无论如何Option 斯卡拉和Nullable可以用来表达有价值或无价值的概念例如当您想在字符串中查找子字符串时最好返回 Option Int 在 Scala 中而不是晦涩难懂的 1 作
如何使用dispatchEvent提交无按钮表单

如果我有一个无按钮的表单并且我想测试可能的 onsubmit 函数是否返回 true 然后提交它这是我当前的代码运行良好 var form document getElementById form var evt document c
替换 PHP 数组键中的子字符串

假设您有一个像这样的 PHP 数组来自 mysqli 查询 array user id gt 1 user name gt User user email gt email protected cdn cgi l email protec
将类名添加到 uibinder xml 文件中的元素

以下内容替换任何当前的 css 类名称看来是叫setStyleName
如何使用 xquery update 将节点内的文本转换为子节点？

我有一个 xml 文档例如
检查模拟对象的类类型

我正在测试一个方法该方法获取一个对象并检查该对象是否是存储为实例变量的类的实例到目前为止没有问题但在测试中我必须使用模拟并且这些模拟之一是传递给该方法的对象而现在事情变得棘手了我们看一下代码我总结了本次测试的代码 Class
如何在VBA中的公式中插入变量

有人能解决这个问题吗 Sub test Dim i as integer For I 1 to 10 ActiveCell Offset 0 2 Formula Sum E15 i Next I End Sub 你的实际目标不清楚你可能想
编辑字典列表中的值？

my dicts key1 value1 key2 value2 key1 value1 key2 value2 key1 value1 key2 value2 将 value2 的所有实例替换为 value3 的最有效方法是什么我没有做
TDE 启用对数据库性能有何影响？

如果我在数据库上使用透明数据加密会对数据库性能产生任何影响吗这会导致数据库索引出现问题吗有些人已经对此进行了测试参见here http www databasejournal com features mssql article p
跨行对 Pandas 数据框进行分组

我有一个这样的csv client1 client2 client3 client4 client5 client6 amount Comp1 4 475000 Comp2 16 305584 Comp3 4 050000 Comp2 Co

跨行对 Pandas 数据框进行分组

跨行对 Pandas 数据框进行分组 的相关文章

随机推荐

热门标签

跨行对 Pandas 数据框进行分组的相关文章