使用 pandas 进行分组和比较

2024-01-05

我的数据看起来像：

Identifier  Category1 Category2 Category3 Category4 Category5
1000           foo      bat       678         a.x       ld
1000           foo      bat       78          l.o       op
1000           coo      cat       678         p.o       kt
1001           coo      sat       89          a.x       hd
1001           foo      bat       78          l.o       op
1002           foo      bat       678         a.x       ld
1002           foo      bat       78          l.o       op
1002           coo      cat       678         p.o       kt

我想做的是将 1000 与 1001 和 1002 进行比较，依此类推。我希望代码给出的输出是：1000 与 1002 相同。因此，我想要使用的方法是：

首先将所有标识符项分组到单独的数据帧中（也许？）。例如，df1 将是与标识符 1000 相关的所有行，df2 将是与标识符 1002 相关的所有行。（**请注意，我希望代码自己执行此操作，因为有数百万行，而不是我编写代码手动比较标识符**）。我尝试过使用 pandas 的 groupby 功能，它很好地完成了分组部分，但我不知道如何比较组。
比较每个组/子数据帧。

我想到的一种方法是将特定标识符的每一行读取到数组/向量中，并使用比较度量（曼哈顿距离、余弦相似度等）来比较数组/向量。

感谢任何帮助，我对 Python 很陌生。提前致谢！

您可以执行以下操作：

import pandas as pd

input_file = pd.read_csv("input.csv")
columns = ['Category1','Category2','Category3','Category4','Category5']

duplicate_entries = {}

for group in input_file.groupby('Identifier'):
    # transforming to tuples so that it can be used as keys on a dict
    lines = [tuple(y) for y in group[1].loc[:,columns].values.tolist()]    
    key = tuple(lines) 

    if key not in duplicate_entries:
        duplicate_entries[key] = []

    duplicate_entries[key].append(group[0])

然后duplicate_entries值将包含重复标识符的列表

duplicate_entries.values()
> [[1000, 1002], [1001]]

EDIT:

要仅获取具有重复项的条目，您可以使用以下内容：

all_dup = [dup for dup in duplicate_entries if len(dup) > 1]

解释一下索引（抱歉我之前没有解释）：迭代通过df.groupby结果给出一个元组，其中第一个条目是组的键（在本例中它将是“标识符”），第二个条目是一系列分组数据帧。因此，为了获取包含重复条目的行，我们将使用[1]该组的“标识符”位于[0]。因为在duplicate_entries数组我们想要该条目的标识符，使用group[0]会让我们得到那个。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

使用 pandas 进行分组和比较的相关文章

Flask 和 uWSGI - 无法加载应用程序 0 (mountpoint='')（找不到可调用或导入错误）

当我尝试使用 uWSGI 启动 Flask 时出现以下错误我是这样开始的 gt cd gt root localhost uwsgi socket 127 0 0 1 6000 file path to folder run py ca
Python 多处理示例不起作用

我正在尝试学习如何使用multiprocessing但我无法让它发挥作用这是代码文档 http docs python org 2 library multiprocessing html from multiprocessing imp
pandas 替换多个值

以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
如何在Windows上模拟socket.socketpair

标准Python函数套接字套接字对 https docs python org 3 library socket html socket socketpair不幸的是它在 Windows 上不可用从 Python 3 4 1 开始我
R 中的列乘以子字符串

假设我有一个数据框其中包含多个组件及其在多个列中列出的属性并且我想对这些列运行多个函数我的方法是尝试将其基于每个列标题中的子字符串但我无法弄清楚如何做到这一点下面是数据框的示例 Basket F Type 1 F Qty 1 F
将每列的值乘以 R 中另一个 data.frame 中的权重

我有两个data frames df and weights 代码如下 df看起来像这样 id a b d EE f 1 this 0 23421153 0 02324956 0 5457353 0 73068586 0 5642554 2
如何使用 Scrapy 从网站获取所有纯文本？

我希望在 HTML 呈现后可以从网站上看到所有文本我正在使用 Scrapy 框架使用 Python 工作和xpath body text 我能够获取它但是带有 HTML 标签而且我只想要文本有什么解决办法吗最简单的选择是ext
打破嵌套循环[重复]

这个问题在这里已经有答案了有没有比抛出异常更简单的方法来打破嵌套循环在Perl https en wikipedia org wiki Perl 您可以为每个循环指定标签并且至少继续一个外循环 for x in range 10 fo
为 pandas 数据透视表中的每个值列定义 aggfunc

试图生成具有多个值列的数据透视表我知道我可以使用 aggfunc 按照我想要的方式聚合值但是如果我不想对两列求和或求平均值而是想要一列的总和同时求另一列的平均值该怎么办那么使用 pandas 可以做到这一点吗 df pd D
Python tcl 未正确安装

我刚刚为 python 安装了graphics py 但是当我尝试运行以下代码时 from graphics import def main win GraphWin My Circle 100 100 c Circle Point 50
__del__ 真的是析构函数吗？

我主要用 C 做事情其中析构函数方法实际上是为了销毁所获取的资源最近我开始使用python 这真的很有趣而且很棒我开始了解到它有像java一样的GC 因此没有过分强调对象所有权构造和销毁据我所知 init 方法对我来说在 py
如何使用装饰器禁用某些功能的中间件？

我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
在 NumPy 中获取 ndarray 的索引和值

我有一个 ndarrayA任意维数N 我想创建一个数组B元组数组或列表其中第一个N每个元组中的元素是索引最后一个元素是该索引的值A 例如 A array 1 2 3 4 5 6 Then B 0 0 1 0 1 2 0 2 3 1 0
IRichBolt 在storm-1.0.0 和 pyleus-0.3.0 上运行拓扑时出错

我正在运行风暴拓扑 pyleus verbose local xyz topology jar using storm 1 0 0 pyleus 0 3 0 centos 6 6并得到错误线程 main java lang NoClass
NameError：名称“urllib”未定义”

CODE import networkx as net from urllib request import urlopen def read lj friends g name fetch the friend list from Liv
Python：字符串不会转换为浮点数[重复]

这个问题在这里已经有答案了我几个小时前写了这个程序 while True print What would you like me to double line raw input gt if line done break else f
使用 OpenPyXL 迭代工作表和单元格，并使用包含的字符串更新单元格[重复]

这个问题在这里已经有答案了我想使用 OpenPyXL 来搜索工作簿但我遇到了一些问题希望有人可以帮助解决以下是一些障碍待办事项我的工作表和单元格数量未知我想搜索工作簿并将工作表名称放入数组中我想循环遍历每个数组项并搜索包含特
ExpectedFailure 被计为错误而不是通过

我在用着expectedFailure因为有一个我想记录的错误我现在无法修复但想将来再回来解决我的理解expectedFailure是它会将测试计为通过但在摘要中表示预期失败的数量为 x 类似于它如何处理跳过的 tets 但是当我
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
VSCode：调试配置中的 Python 路径无效

对 Python 和 VSCode 以及 stackoverflow 非常陌生直到最近我已经使用了大约 3 个月一切都很好当尝试在调试器中运行任何基本的 Python 程序时弹出窗口The Python path in your

随机推荐

android 屏幕中间的导航选项卡

在我的应用程序中我希望在屏幕中间有选项卡并且顶部有一个 gMap 是否可以将选项卡放置在屏幕中间这是一个原始设计 source qnex me http nairdat qnex me ab tabs png 您可以将 ViewPag
Redshift：定义复合主键

我有一个表我想为其定义一个复合主键其中包含 redshift 中的两列我在创建表语法时遇到一些问题这就是我想做的 Create table metrics id varchar 30 runtime timestamp catego
如何在 Objective-C 中在运行时创建函数

现在已经很晚了我的谷歌技能似乎让我失望了我之前一次又一次发现了一些很好的回应我想你们可以提供帮助我有一个神经网络我试图在本机 Objective C 中运行它有效但速度太慢这些网络不是经常出现的每个网络我运行大约 20
如何生成一个n大小的随机浮点数组，总和为0.0？

考虑到我需要一个 n 大小的向量其中每个元素都定义在 1 1 之间元素 a i 是由 1 2 rand 生成的浮点数我需要一种优雅的方法来确保数组元素的总和等于零我找到了两种可能的解决方案第一个是这个matlab函数https w
Android Studio 中的原始类型警告

使用原始类型引用泛型类型时 Android Studio 不会显示编译器警告有没有办法启用此功能 public class GenericClass
我们如何检查实现相等运算符的类型的引用相等性？

在 C 中我们如何检查实现相等运算符的类型的引用相等性 class C public int Val get set public static bool operator C c1 C c2 return c1 Val c2 Val p
从 form1 上的一个文本框获取 form2 上另一个文本框的数据

我有两个表格form1和form2 我想在单击 form1 上的按钮时从 form2 的文本框中获取文本我在 form1 上使用 private void but Click object sender EventArgs e Form2
从 Firebase 自动发送通知

我正在使用 Firebase 开发 Android 应用程序当记录插入表时 Firebase 可以自动发送推送通知吗或者我必须实现自己的服务器自 2017 年 3 月 9 日起 Firebase 引入了 Firebase 函数它有助
Keras 模型获得恒定的损失和准确性

我正在尝试根据街景门牌号码数据集训练 keras CNN 你可以找到该项目here https github com asindico digitRecognition tree 9faa600f956e264ca61afe48d64c83
如何在Spring中为AppRole提供secret-id

我将 HashiCorp Vault 与org springframework cloud spring cloud starter vault configSpring 库我需要一些帮助我想使用AppRoleauth 方法我想知道提
如何从 python 在后台运行 imagemagick

如何在不打开新的命令行窗口并失去焦点的情况下使用 python 中的 imagemagick 这个循环显示了问题处理图像时系统变得无法使用因为每次系统调用都会失去焦点 for i in range 0 100 1 image conve
这些 Mono/xbuild 警告是什么意思以及如何修复它们？

我使用 Mono 的 xbuild 2 10 5 0 构建 VS2010 项目这些项目使用 NET Framework 3 5 Client Profile 作为目标框架它们必须与 3 5 兼容并且我只需要客户端配置文件部分我收到以
inline-block 的替代方案及其对当前浏览器的支持

所以我目前正在使用inline block对于我的网站据我所知它仍然相对较新 5 年范围我想知道现在是否可以使用它或者是否有人可以向我推荐一个优雅的黑客那就太棒了谢谢你的时间你实际上可以使inline block跨浏览器你一
无法读取 Freemarker 模板中的对象值

我无法读取 Freemarker Templatet 中的 scala java 对象值我尝试过这个 case class ScheduleEmail workOrderNo String name String woType Strin
Angular 路由如何优先于静态站点上的文件路径

如果我使用文件结构构建静态站点 index html blog index html 我在里面放了一个带有路由的 Angular 应用程序blog index html 然后转到路线example com blog page 2 它会转到
如果在某种横向或纵向模式下，如何提示用户旋转设备，类似于 GameInformer App

我有一个以横向模式观看效果最佳的网站我怎样才能拥有它如果用户以横向模式加载网站那就没问题但如果以纵向模式加载或者他们从横向模式旋转到纵向模式则会弹出图像或其他内容占据整个屏幕要求他们旋转回景观认为 Javascript j
ASP.NET MVC 富文本编辑器 [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案 Goal 此 wiki 条目的目标是为传统网站创建可用的富文本编辑器的综合列表我们所说的传统是指任何非 ASP NET 的服务器控件和视图状态开源
Arduino 以太网扩展板未连接到 Web 服务器

我在让 Arduino 以太网扩展板与服务器通信时遇到问题串行监视器上的结果始终是我的arduino代码是 include
如何在不依赖 moment.js 的情况下格式化 Angular Material 日期选择器

我想实现什么目标我希望我的 Angular Material v11 日期选择器在 Angular 版本 11 项目中使用 DD MM YYYY 格式我尝试了什么我尝试使用MatMomentDateModule但这使用了 moment
使用 pandas 进行分组和比较

我的数据看起来像 Identifier Category1 Category2 Category3 Category4 Category5 1000 foo bat 678 a x ld 1000 foo bat 78 l o op 100

使用 pandas 进行分组和比较

使用 pandas 进行分组和比较 的相关文章

随机推荐

热门标签

使用 pandas 进行分组和比较的相关文章