使用 Pandas 进行数据分组

2023-12-06

我有一个数据框

Name    Subset    Type    System
A00     IU00-A    OP      A
A00     IT00      PP      A
B01     IT-01A    PP      B
B01     IU        OP      B
B03     IM-09-B   LP      A
B03     IM03A     OP      A
B03     IT-09     OP      A
D09     IT        OP      A
D09     IM        LP      B
D09     IM        OP      A

上面的数据框，我需要根据使用提取的分组名称和子集字符串来转换它extractall(r'[^a-zA-Z]*([a-zA-Z]+)[^,]*').groupby(level=0).agg(', '.join)。而系统、子集则应按照类型依次提及。

输出示例：

Subset Cluster    Type Cluster    Name          System        Subsets
IU,IT             OP,PP           A00,B01       A,A,B,B       IU00-A,IT00
IM,IM,IT          LP, OP, OP      B03, D09      A,A,A,A,B,A   IM-09-B,IM03A,IT-09,IT,IM,IM

Double groupby我们首先按“名称”分组，然后再次按“子集集群”和“类型集群”进行分组：

out = df.assign(**{'Subset Cluster': df['Subset'].str.extractall(r'[^a-zA-Z]*([a-zA-Z]+)[^,]*')\
                                                 .groupby(level=0)[0].agg(', '.join)})\
        .sort_values(by=df.columns.tolist())\
        .groupby('Name', as_index=False).agg(', '.join).rename(columns={'Type':'Type Cluster'})\
        .groupby(['Subset Cluster', 'Type Cluster'], as_index=False).agg(', '.join)

Output:

  Subset Cluster  Type Cluster      Name                             Subset            System
0     IM, IM, IT    LP, OP, OP  B03, D09  IM-09-B, IM03A, IT-09, IM, IM, IT  A, A, A, B, A, A  
1         IT, IU        PP, OP  A00, B01           IT00, IU00-A, IT-01A, IU        A, A, B, B

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

pandas

pandasgroupby

使用 Pandas 进行数据分组的相关文章

使 django 服务器可以在 LAN 中访问

我已经安装了Django服务器可以如下访问 http localhost 8000 get sms http 127 0 0 1 8000 get sms 假设我的IP是x x x x 当我这样做时从同一网络下的另一台电脑 my ip
从字符串中删除识别的日期

作为输入我有几个包含不同格式日期的字符串例如彼得在16 45 我的生日是1990年7月8日 On 7 月 11 日星期六我会回家 I use dateutil parser parse识别字符串中的日期在下一步中我想从字符串中删除
PyUSB 1.0：NotImplementedError：此平台不支持或未实现操作

我刚刚开始使用 pyusb 基本上我正在玩示例代码here https github com walac pyusb blob master docs tutorial rst 我使用的是 Windows 7 64 位并从以下地址下载 z
python 相当于 R 中的 get() （= 使用字符串检索符号的值）

在 R 中 get s 函数检索名称存储在字符变量向量中的符号的值s e g X lt 10 r lt XVI s lt substr r 1 1 X get s 10 取罗马数字的第一个符号r并将其转换为其等效整数尽管花了一些时间翻
是否可以忽略一行的pyright检查？

我需要忽略一行的pyright 检查有什么特别的评论吗 def create slog group SLogGroup data Optional dict None SLog insert one SLog group group da
SQLALchemy .query：类“Car”的未解析属性引用“query”

我有一个这里已经提到的问题https youtrack jetbrains com issue PY 44557 https youtrack jetbrains com issue PY 44557 但我还没有找到解决方案我使用 Pyt
测试 python Counter 是否包含在另一个 Counter 中

如何测试是否是pythonCounter https docs python org 2 library collections html collections Counter is 包含在另一个中使用以下定义柜台a包含在计数器中b当且
Python pickle：腌制对象不等于源对象

我认为这是预期的行为但想检查一下也许找出原因因为我所做的研究结果是空白我有一个函数可以提取数据创建自定义类的新实例然后将其附加到列表中该类仅包含变量然后我使用协议 2 作为二进制文件将该列表腌制到文件中稍后我重新运行脚本
OpenCV 无法从 MacBook Pro iSight 捕获

几天后我无法再从 opencv 应用程序内部打开我的 iSight 相机 cap cv2 VideoCapture 0 返回并且cap isOpened 回报true 然而 cap grab 刚刚返回false 有任何想法吗示例代码
在Python中获取文件描述符的位置

比如说我有一个原始数字文件描述符我需要根据它获取文件中的当前位置 import os psutil some code that works with file lp lib open path to file p psutil Pro
将图像分割成多个网格

我使用下面的代码将图像分割成网格的 20 个相等的部分 import cv2 im cv2 imread apple jpg im cv2 resize im 1000 500 imgwidth im shape 0 imgheight i
每个 X 具有多个 Y 值的 Python 散点图

我正在尝试使用 Python 创建一个散点图其中包含两个 X 类别 cat1 cat2 每个类别都有多个 Y 值如果每个 X 值的 Y 值的数量相同我可以使用以下代码使其工作 import numpy as np import mat
有没有办法检测正在运行的代码是否正在上下文管理器内执行？

正如标题所述有没有办法做到这样的事情 def call back if called inside context print running in context else print called outside context 这将
Conda SafetyError：文件大小不正确

使用创建 Conda 环境时conda create n env name python 3 6 我收到以下警告 Preparing transaction done Verifying transaction SafetyError Th
识别 pandas 数据框中各组之间的差异

我有一个按日期和 ID 索引的 pandas 数据框我想识别日期之间增删的ID 将 ID 添加到另一个数据帧以及添加删除的日期 date ID value 12 31 2010 13 0 124409 9 0 555959 1 0 7
使用其构造函数初始化 OrderedDict 以便保留初始数据的顺序的正确方法？

初始化有序字典 OD 以使其保留初始数据的顺序的正确方法是什么 from collections import OrderedDict Obviously wrong because regular dict loses order d O
Scrapy：如何使用元在方法之间传递项目

我是 scrapy 和 python 的新手我试图将 parse quotes 中的项目 item author 传递给下一个解析方法 parse bio 我尝试了 request meta 和 response meta 方法如 sc
Python 类继承 - 诡异的动作

我观察到类继承有一个奇怪的效果对于我正在处理的项目我正在创建一个类来充当另一个模块的类的包装器我正在使用第 3 方 aeidon 模块用于操作字幕文件但问题可能不太具体以下是您通常如何使用该模块 project aeidon P
导入错误：没有名为 site 的模块 - mac

我已经有这个问题几个月了每次我想获取一个新的 python 包并使用它时我都会在终端中收到此错误 ImportError No module named site 我不知道为什么会出现这个错误实际上我无法使用任何新软件包因为每次我
如何将输入读取为数字？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动 Why are x and y下面的代码中使用字符串而不是整数注意在Python 2

随机推荐

对文件夹中的所有文件执行命令

我想对目录中的所有文件运行命令对于 c conversion ajt 中的 1 执行以下操作转换命令 1 2 但是我需要一个与输入相同但具有不同文件扩展名的输出文件名 asciitojt exe filename1 ajt filena
在 mutate() 中使用列函数的变量

我如何使用变量来代替列名在 dplyr 字符串中举个例子我想向 iris 数据集添加一列称为 sum 它是 Sepal Length 和 Sepal Width 的总和简而言之我想要以下代码的工作版本 x Sepal Length
Python str() 双引号字符串

我知道这个问题听起来很幼稚但我还是坚持下去我正在使用 jquery 自动完成结果发现它需要 data1 data2 形式的列表我正在从 json 文件获取数据并且 data json load fobj content data s
PHP 作曲家 HTTPS 错误 1416F086。证书验证失败

我突然在使用 PHP Composer 时遇到了这个令人讨厌的 HTTPS 错误而 Composer 曾经在我的机器上工作 Github 和 stackoverflow 上已经有存在相同问题的主题我尝试了所有推荐的东西但没有任何对我有
C# - 内部属性在快速观察中“可读”但不使用反射？

我看到快速监视窗口可以访问所有属性无论库中类的访问限制内部受保护私有如何即使在完全不同的应用程序库和命名空间中引用该库也是如此然而我没有找到使用反射访问这些的方法我特别尝试读取注意只是读取程序集的内部属性
字符串文字中的转义状态作为“String#tr”的参数

对于作为参数的单引号字符串文字中的反斜杠的转义状态对我来说有些神秘String tr 你能解释一下下面三个例子之间的对比吗我尤其不明白第二个为了避免复杂化我正在使用 d 在这里当用双引号转义时不会改变含义 d d tr x gt
使用反应式扩展观察传入的 websocket 消息？

我想使用 linq 来处理通过 websocket 连接接收到的事件这是我到目前为止所拥有的 private static void Main string WsEndpoint wss push planetside2 com stre
服务中的可运行对象是否在 UI 线程上运行

在 Android 中当我在服务内创建一个可运行对象并运行它时虽然我意识到它在自己的线程中运行但该线程是否是 UI 线程的一部分换句话说如果runnable执行了一个很长的过程会影响UI吗 EDIT private class
如何根据行中的文本单击表格中的链接

使用 page object 和 watir webdriver 如何根据行文本单击表中的链接如下所示该表包含 3 行第一列中有名称右侧列中有相应的详细信息链接仪表板详细信息示例详细信息等等 div class basic
Google 地图：为什么我会收到referer-not-allowed-map-error？ [关闭]

Closed 这个问题需要调试细节目前不接受答案我有一个 Android 应用程序在 Play 商店之外它使用带有 Javascript 的 HTML 页面来调用 Google 地图我得到一个referer not allowed
如何向服务器套接字写入字节

我正在编写一个java套接字程序来从服务器读取数据我无法控制服务器下面是约定的协议 2字节幻数 2字节数据长度 N 字节 ASCII 字符串数据有效负载幻数和数据长度的大端序例如如果我的请求是 command 1 getuse
如果 value 中的 a 值等于 R 中的上一行，则删除整行

我是 R 编程新手需要帮助根据单列的值删除整行如果单列中的值等于前一行的值我想删除该行以下是我的数据 x id x timestamp x count 71 1 1435114605 61 72 1 1435114606 61 73
WordPress自定义文件在页面上传

我目前正在使用此代码进行 PHP 文件上传直接在 WordPress 页面上找到
徽标/图像未显示在shinyapps.io 上

我的徽标正在显示本地 R 闪亮但是当我将应用程序部署到闪亮应用程序io 在这里检查应用程序标志显示一张空白图片有人可以帮我吗 The blank logo My code library dplyr library shiny lib
Highcharts 多线图

这是我的小提琴 http jsfiddle net a4UQf Code function container highcharts title text Monthly Average Temperature x 20 center su
在 Django 中序列化外键对象

我一直致力于在 Django 中开发一些 RESTful 服务以便与 Flash 和 Android 应用程序一起使用开发服务接口非常简单但我在序列化具有外键和多对多关系的对象时遇到了问题我有一个这样的模型 class Artifa
python脚本杀死并启动自身

我想在一小时内达到指定时间时启动 python 脚本的新实例并杀死当前实例 python 脚本使用 crontab 在启动时自动启动无限 while 循环读取数据如果在第 59 秒 30 和第 59 秒 59 之间有数据传入则文件将关
PyRhO 似乎在安装时破坏了我的其他库

我正在运行 Ubuntu 18 10 和 Python 3 6 并且已经使用这台笔记本电脑和常见的 Python 库 numpy scipy matplotlib 几个月了没有任何问题我用了 pip3 install pyrho 安装P
Phalcon 和 nginx - 框架仅运行 indexController

我正在使用 Phalcon 和 Nginx 但遇到了问题当我去http myapp dev segmentationPhalcon 应该运行 SegmentationController 及其 indexAction 方法但相反 Pha
使用 Pandas 进行数据分组

我有一个数据框 Name Subset Type System A00 IU00 A OP A A00 IT00 PP A B01 IT 01A PP B B01 IU OP B B03 IM 09 B LP A B03 IM03A OP

使用 Pandas 进行数据分组

使用 Pandas 进行数据分组 的相关文章

随机推荐

热门标签

使用 Pandas 进行数据分组的相关文章