Pandas - 查找并迭代多列中具有匹配值的行，并将另一列中的值相乘

2024-01-08

这个问题是我的进一步的进步前一个 https://stackoverflow.com/questions/51808294/pandas-find-rows-with-matching-values-in-two-columns-and-multiply-value-in-ano:

我编辑了表格，这样会减少混乱

首先假设我们有一个数据框如下：

data = pd.DataFrame({'id':['1','2','3','4','5','6','7','8','9','10'], 
                 'A':['foo', 'bar', 'foo', 'bar','foo', 'bar', 'foo', 'foo','foo','bar'],  
                 'C':['10','10','10','50','50','50','50','8','10','20'], 
                 'D':['10','9','8','7','6','5','4','3','2','1']})

如下：

      A  C   D  id
0   foo 10  10  1
1   bar 10  9   2
2   foo 10  8   3
3   bar 50  7   4
4   foo 50  6   5
5   bar 50  5   6
6   foo 50  4   7
7   foo 8   3   8
8   foo 10  2   9
9   bar 20  1   10

我想做的是找到匹配行，然后进行一些计算。

for any two ids(idx, idy) in data.iterrows():
       if idx.A == idy.A and idx.C = idy.C:
       result = idx.D * idy.D

然后生成一个包含三列的新数据框['id'], ['A'] and ['result'].

@Jon Clements♦ 用以下非常简洁的代码回答了我之前的问题：

   df.merge(
        df.groupby(['A', 'C']).D.agg(['prod', 'count'])
        [lambda r: r['count'] > 1],
        left_on=['A', 'C'],
        right_index=True
    )

新目标：

现在我想知道是否有一种方法可以在与 row_b 匹配后不再迭代 row_a 。换句话说，我将这两个匹配行视为一对。一旦 row_a 和 row_b 成为一对，进一步的循环将忽略 row_a（不会忽略 row_b，直到 row_b 与另一行匹配）。

Take groupby().agg('prod', 'count')以函数为例，我希望'count'生成的所有结果中有 2 个（不仅仅是带有['count'] == 2）。我认为这不会使用groupby()所以我想像for循环这样的机制可以解决这个问题吗？或者有什么更好的方法吗？

所以现在的预期结果是（因为 id1 和 id3 已经成为一对，所以它不会聚合到 id9，并且对于其余迭代 id3 将不会与 id1 匹配。因此对于下表，第一行的结果是 80 但不是 160 ，第二行也不是）：

     id   A   result   
0    1   foo   80   
1    3   foo   16
2    4   bar   35
3    5   foo   24

我的英语不是很好，所以我不确定我是否清楚地解释了我的问题。如果有什么不清楚的地方可以问我。

谢谢你的帮助。

这是一个有点冗长的解决方案，远不如 Jon Clements 为您解决第一个问题的原始解决方案那么优雅。但我想出了一个不需要 for 循环的解决方案。

# sort values by A,C,id
df = df.sort_values(['A','C','id'])
# find where A and C are equal when shifted down by 1
s=(df[['A','C']] == df[['A','C']].shift()).T.apply(lambda x: x.A and x.C)

# create a new series where we take the value of D of whe A and C are equal
# and multiply it with the next value - since it's sorted it should be next A,C match
new_d = (df.iloc[df[s].index].reset_index().D * df.iloc[df[s].index+1].reset_index().D)
new_d.index = df.iloc[df[s].index].index
new_d.name = 'results'

print(new_d)
Output >
0    80
3    35
4    24
2    16
Name: results, dtype: int64

根据上面的内容，我们简单地创建一个新列df并将其分配给new_d:

# create a new column in df and assign it to new_d
df['results'] = new_d

df.dropna()[['id','A','results']].sort_values('id')

Output:

    id  A   results
0   1   foo 80.0
2   3   foo 16.0
3   4   bar 35.0
4   5   foo 24.0

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Pandas - 查找并迭代多列中具有匹配值的行，并将另一列中的值相乘的相关文章

Python 的键盘中断不会中止 Rust 函数 (PyO3)

我有一个使用 PyO3 用 Rust 编写的 Python 库它涉及一些昂贵的计算单个函数调用最多需要 10 分钟从 Python 调用时如何中止执行 Ctrl C 好像只有执行结束后才会处理所以本质上没什么用最小可重现示例 Ca
通过最小元素比较对 5 个元素进行排序

我必须在 python 中使用元素之间的最小比较次数来建模对 5 个元素的列表进行排序的执行计划除此之外复杂性是无关紧要的结果是一个对的列表表示在另一时间对列表进行排序所需的比较我知道有一种算法可以通过 7 次比较总是在元素之间
使用带有关键字参数的 map() 函数

这是我尝试使用的循环map功能于 volume ids 1 2 3 4 5 ip 172 12 13 122 for volume id in volume ids my function volume id ip ip 我有办法做到这一点
使用 matplotlib 绘制时间序列数据并仅在年初显示年份

rcParams date autoformatter month b n Y 我正在使用 matpltolib 来绘制时间序列如果我按上述方式设置 rcParams 则生成的图会在每个刻度处标记月份名称和年份我怎样才能将其设置为仅在每
是否可以忽略一行的pyright检查？

我需要忽略一行的pyright 检查有什么特别的评论吗 def create slog group SLogGroup data Optional dict None SLog insert one SLog group group da
测试 python Counter 是否包含在另一个 Counter 中

如何测试是否是pythonCounter https docs python org 2 library collections html collections Counter is 包含在另一个中使用以下定义柜台a包含在计数器中b当且
使用 Tkinter 显示 numpy 数组中的图像

我对 Python 缺乏经验第一次使用 Tkinter 制作一个 UI 显示我的数字分类程序与 mnist 数据集的结果当图像来自 numpy 数组而不是我的 PC 上的文件路径时我有一个关于在 Tkinter 中显示图像的问题我为
Python 函数可以从作用域之外赋予新属性吗？

我不知道你可以这样做 def tom print tom s locals locals def dick z print z name z name z guest Harry print z guest z guest print di
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
添加不同形状的 numpy 数组

我想添加两个不同形状的 numpy 数组但不进行广播而是将缺失值视为零可能最简单的例子是 1 2 3 2 gt 3 2 3 or 1 2 3 2 1 gt 3 2 3 1 0 0 我事先不知道形状我正在弄乱每个 np shape
Python 的“zip”内置函数的 Ruby 等价物是什么？

Ruby 是否有与 Python 内置函数等效的东西zip功能如果不是做同样事情的简洁方法是什么一些背景信息当我试图找到一种干净的方法来进行涉及两个数组的检查时出现了这个问题如果我有zip 我可以写这样的东西 zip a b a
在f字符串中转义字符[重复]

这个问题在这里已经有答案了我遇到了以下问题f string gt gt gt a hello how to print hello gt gt gt f a a gt gt gt f a File
无法在 Python 3 中导入 cProfile

我试图将 cProfile 模块导入 Python 3 3 0 但出现以下错误 Traceback most recent call last File
Pandas：merge_asof() 对多行求和/不重复

我正在处理两个数据集每个数据集具有不同的关联日期我想合并它们但因为日期不完全匹配我相信merge asof 是最好的方法然而有两件事发生merge asof 不理想的数字重复数字丢失以下代码是一个示例 df a pd Da
每个 X 具有多个 Y 值的 Python 散点图

我正在尝试使用 Python 创建一个散点图其中包含两个 X 类别 cat1 cat2 每个类别都有多个 Y 值如果每个 X 值的 Y 值的数量相同我可以使用以下代码使其工作 import numpy as np import mat
对年龄列进行分组/分类

我有一个数据框说df有一个柱子 Ages gt gt gt df Age 0 22 1 38 2 26 3 35 4 35 5 1 6 54 我想对这个年龄段进行分组并创建一个像这样的新专栏 If age gt 0 age lt 2 the
类型错误：预期单个张量时的张量列表 - 将 const 与 tf.random_normal 一起使用时

我有以下 TensorFlow 代码 tf constant tf random normal time step batch size 1 1 我正进入状态TypeError List of Tensors when single Te
Rocket UniData/UniVerse：ODBC 无法分配足够的内存

每当我尝试使用pyodbc连接到 Rocket UniData UniVerse 数据时我不断遇到错误 pyodbc Error 00000 00000 Rocket U2 U2ODBC 0302810 Unable to allocate
如何将输入读取为数字？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动 Why are x and y下面的代码中使用字符串而不是整数注意在Python 2
NotImplementedError：无法将符号张量 (lstm_2/strided_slice:0) 转换为 numpy 数组。时间

张量流版本 2 3 1 numpy 版本 1 20 在代码下面 define model model Sequential model add LSTM 50 activation relu input shape n steps n fe

随机推荐

使用 array_multisort() 对多维 PHP 数组进行不区分大小写的排序

经过大量搜索后我无法找到有关如何使用 array multisort 按一个字段不区分大小写地对多维数组进行排序的良好解释我发现在处理数据库查询信息时这是一个非常有用的功能因此我想分享一下我应该注意这仅适用于 php 5 4 Exa
ANDROID：不同尺寸的ImageView

我是 android studio 的新手因此如果问题很琐碎请原谅我的问题是理解布局我的布局和相应的值文件夹如下所示我的问题是没有选择正确的布局例如对于 Nexus 4 4 7 英寸 768x1280 xhdpi 在横向模式
R Shiny：删除 ggplot2 背景以使其透明

我想让 R Shiny Server 上的 ggplots 透明我的绘图 ui R 如下 plotOutput malPie width 95 在 server R 中我的绘图函数如下 c lt ggplot dataFrame aes
在pentaho中休息客户端

我对 pentaho 数据集成工具非常陌生我想从我的 pentaho 中使用一个安静的服务 post web 服务为此我发现我应该使用休息客户端但是当我给出网址和正文因为我想使用后期服务时它并没有在数据库中进行必要的更改谁能
Moment.js 包含日期格式中间的文本

我的格式为 2015 年 1 月 27 日上午 8 17 我需要使用 moment js 显示它我正在使用格式 moment format MMM D YYYY at h mm A z 除了 at 这个词之外一切都很好我怎样才能让这个
在oracle中创建密码字段

安全外部密码存储有什么用我可以使用安全外部密码存储在 Oracle 表中创建密码字段吗或者如何在不使用安全外部密码存储的情况下在 Oracle 表中创建密码字段一种不使用安全外部密码存储无论是什么的方法是将 RAW 1
休眠级联持续

我有一个关于 Hibernate 的一般性问题正在解决我有 A 类和 B 类其中 B 依赖于 A 在我的代码中当我调用 em persist objOfTypeA 时我希望插入并插入到表 AAA 和 BBB 中如果我手动保留 A
Powershell：递归移动文件

我正在尝试将所有构建输出文件和文件夹复制到Bin文件夹输出目录 Bin 除了一些保留在输出目录 The Bin文件夹永远不会被删除初始条件 Output config log4net file1 txt file2 txt file3
删除 R 图形设备中的所有边距

所以我在摆脱图形设备的整个边距时遇到了一些麻烦我已将 mar 设置为 0 但边缘周围仍然存在一些持久空间例如 plot new par mar c 0 0 0 0 plot window c 0 1 c 0 1 points c 1 1
如何使用 foreachPartition 在 Spark 中为每个分区高效构建一个 ML 模型？

我正在尝试为数据集的每个分区拟合一个 ML 模型但我不知道如何在 Spark 中执行此操作我的数据集基本上是这样的按公司划分 Company Features Target A xxx 0 9 A xxx 0 8 A xxx 1 0 B
C2DM实现PHP代码

我正在创建使用 C2DM 推送通知的 Android 应用程序但我在创建 php 代码以使用 c2dm 发送消息时遇到问题请指导我如何使用 php 代码发送消息实际上存在一个问题即如何获取客户端身份验证令牌我见过http code
ASP.NET MVC：如何设置 web.config 进行 LDAP 身份验证？

我有一个正在运行的 LDAP 服务器其参数如下 OU users OU mydomain O this domain LDAP myhost 389 I 成功地 access 使用通用 LDAP 客户端就像 Jarek Gawor 的
在 LINQ 中实现“不在”（又名“不存在”）逻辑

Setup 我有两个List
Objective C 的 iPhone 开发中的“委托”是什么？ [复制]

这个问题在这里已经有答案了 Objective C 的 iPhone 开发中的委托是什么委托是一个指向对象的指针该对象具有委托持有者知道如何调用的一组方法换句话说就是启用特定回调的机制来自后来创建的对象 A 很好的例子是UIAl
过滤二维数组并从中间返回坐标

我有一个由零组成的二维数组在 1 6 和 2 7 处有一些正整数 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0
Laravel 4 控制器测试 - 太多 $this->call() 后出现 ErrorException - 为什么？

我非常感谢有关我遇到的 Laravel 4 问题的帮助我正在测试控制器路由特别是负责路由调查问卷响应的控制器我正在测试以下场景用户尝试跳过问题用户请求不存在的问题等等到目前为止我为所有场景编写的测试都可以使用 PHPunit
Skipgrams 上下文（kwic）中的关键字？

我使用 Quanteda 对 ngram 和 token 进行上下文分析中的关键字效果很好我现在想对skipgrams 执行此操作捕获进入障碍的上下文以及和进入障碍下面的代码是一个空的 kwic 对象但我不知道我做错了什么
从 PERL LibXML 解析器获取完整的 XML 字符串

我有以下需要处理的 XML table table
仅使用 GitHub Actions 在特定分支上运行作业

我对 GitHub Actions 比较陌生我有 2 份工作一份运行我的测试另一份将我的项目部署到服务器上显然我希望测试在每个分支上运行但是只有当某些内容被推送到 master 时才应该进行部署我正在努力寻找一种在特定分支上运
Pandas - 查找并迭代多列中具有匹配值的行，并将另一列中的值相乘

这个问题是我的进一步的进步前一个 https stackoverflow com questions 51808294 pandas find rows with matching values in two columns and mul

Pandas - 查找并迭代多列中具有匹配值的行，并将另一列中的值相乘

Pandas - 查找并迭代多列中具有匹配值的行，并将另一列中的值相乘 的相关文章

随机推荐

热门标签

Pandas - 查找并迭代多列中具有匹配值的行，并将另一列中的值相乘的相关文章