Pandas 层次排序

2024-02-16

我有一个类别和金额的数据框。可以使用冒号分隔的字符串将类别无限嵌套到子类别中。我希望按金额降序排序。但以分层类型的方式如图所示。

我需要如何排序

CATEGORY                            AMOUNT
Transport                           5000
Transport : Car                     4900
Transport : Train                   100
Household                           1100
Household : Utilities               600
Household : Utilities : Water       400
Household : Utilities : Electric    200
Household : Cleaning                100
Household : Cleaning : Bathroom     75
Household : Cleaning : Kitchen      25
Household : Rent                    400
Living                              250
Living : Other                      150
Living : Food                       100

EDIT:数据框：

pd.DataFrame({
    "category": ["Transport", "Transport : Car", "Transport : Train", "Household", "Household : Utilities", "Household : Utilities : Water", "Household : Utilities : Electric", "Household : Cleaning", "Household : Cleaning : Bathroom", "Household : Cleaning : Kitchen", "Household : Rent", "Living", "Living : Other", "Living : Food"],
    "amount": [5000, 4900, 100, 1100, 600, 400, 200, 100, 75, 25, 400, 250, 150, 100]
})

注：这是我想要的顺序。在排序之前它可以是任意顺序。

EDIT2:如果有人正在寻找类似的解决方案，我在这里发布了我确定的解决方案：如何按分层类别结构中的值对 pandas 中的数据框进行排序 https://stackoverflow.com/questions/61404130/how-to-sort-dataframe-in-pandas-by-value-in-hierarchical-category-structure/61404843#61404843

一种方法可能是首先str.split类别栏。

df_ = df['category'].str.split(' : ', expand=True)
print (df_.head())
           0          1     2
0  Transport       None  None
1  Transport        Car  None
2  Transport      Train  None
3  Household       None  None
4  Household  Utilities  None

然后获取列金额，您想要的是根据以下条件获取每组的最大金额：

仅第一列，
然后是第一列和第二列
然后是第一、二、三列，...

你可以这样做groupby.transform with max，然后连接创建的每个列。

s = df['amount']
l_cols = list(df_.columns)
dfa = pd.concat([s.groupby([df_[col] for col in range(0, lv+1)]).transform('max')
                  for lv in l_cols], keys=l_cols, axis=1)
print (dfa)
       0       1      2
0   5000     NaN    NaN
1   5000  4900.0    NaN
2   5000   100.0    NaN
3   1100     NaN    NaN
4   1100   600.0    NaN
5   1100   600.0  400.0
6   1100   600.0  200.0
7   1100   100.0    NaN
8   1100   100.0   75.0
9   1100   100.0   25.0
10  1100   400.0    NaN
11   250     NaN    NaN
12   250   150.0    NaN
13   250   100.0    NaN

现在你只需要sort_values在所有列上以正确的顺序首先是 0，然后是 1，然后是 2...，获取索引并使用 loc 以预期的方式对 df 进行排序

dfa = dfa.sort_values(l_cols, na_position='first', ascending=False)
dfs = df.loc[dfa.index] #here you can reassign to df directly
print (dfs)
                            category  amount
0                          Transport    5000
1                    Transport : Car    4900
2                  Transport : Train     100
3                          Household    1100
4              Household : Utilities     600
5      Household : Utilities : Water     400
6   Household : Utilities : Electric     200
10                  Household : Rent     400 #here is the one difference with this data
7               Household : Cleaning     100
8    Household : Cleaning : Bathroom      75
9     Household : Cleaning : Kitchen      25
11                            Living     250
12                    Living : Other     150
13                     Living : Food     100

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Sorting

Hierarchical

Pandas 层次排序的相关文章

Python Nose 导入错误

我似乎无法理解鼻子测试框架 https nose readthedocs org en latest 识别文件结构中测试脚本下方的模块我已经设置了演示该问题的最简单的示例下面我会解释一下这是包文件结构 init py foo py t
编辑 scikit-learn 决策树

我想编辑 sklearn DecisionTree 例如改变条件或切割节点叶子等但似乎没有功能可以做到这一点如果我可以导出到文件编辑它以导入如何编辑决策树环境 Windows 10 python3 3 sklearn 0 17
Python的reduce()短路了吗？

If I do result reduce operator and False 1000 得到第一个结果后它会停止吗自从False anything False 相似地 result reduce operator or True 10
Python sqlite3游标没有属性commit

当我运行这段代码时 path Scripts wallpapers single png conn sqlite3 connect Users Heaven Library Application Support Dock desktopp
conda 无法从 yml 创建环境

我尝试运行下面的代码来从 YAML 文件创建虚拟 Python 环境我在 Ubuntu 服务器上的命令行中运行代码虚拟环境名为 py36 当我运行下面的代码时我收到下面的消息环境也没有被创建这个问题是因为我有几个必须使用 pip
如何从谷歌云存储桶读取音频文件并在datalab笔记本中使用ipd播放

我想在数据实验室笔记本中播放我从谷歌云存储桶中读取的声音文件这个怎么做 import numpy as np import IPython display as ipd import librosa import soundfile as
如何在 ReportLab 段落中插入回车符？

有没有办法在 ReportLab 的段落中插入回车符我试图将 n 连接到我的段落字符串但这不起作用 Title Paragraph Title n Page myStyle 我想要这样做因为我将名称放入单元格中并且想要控制单元格中的
为什么我的scoped_session 引发 AttributeError: 'Session' object has no attribute 'remove'

我正在尝试建立一个系统将数据库操作优雅地推迟到单独的线程以避免在 Twisted 回调期间发生阻塞到目前为止这是我的方法 from contextlib import contextmanager from sqlalchemy i
Django 的 URL 覆盖率测试为 0%，为什么？

使用姜戈鼻子我对 URL 进行了测试但 URL 覆盖率仍然为 0 为什么 python manage py 测试配置文件这是我的报道 Name Stmts Miss Cover Missing profiles 0 0 100 pro
用Python中的嵌套for循环替换重复的if语句？

在我编写的下面的代码中 n 4 所以有五个 if 语句所以如果我想将 n 增加到比如说 10 那么就会有很多 if 语句因此我的问题是如何用更优雅的东西替换所有 if 语句 n p 4 5 number of trials prob
str.translate 给出 TypeError - Translate 采用一个参数（给定 2 个参数），在 Python 2 中工作

我有以下代码 import nltk os json csv string cPickle from scipy stats import scoreatpercentile lmtzr nltk stem wordnet WordNetL
如何对这个 Flask 应用程序进行单元测试？

我有一个 Flask 应用程序它使用 Flask Restless 来提供 API 我刚刚写了一些身份验证来检查如果消费者主机被识别该请求包含一个哈希值通过加密 POST 的请求内容和 GET 的 URL 以及秘密 API 密钥来计
Django - 电子邮件发送两次

每当我使用如下所示的电子邮件设置从views py调用下面的方法时电子邮件的两份副本都会发送给收件人并且我收到如下所示的错误 def sendEmailBasic request msg EmailMessage Request Cal
如何获得没有前缀的虚拟人物？

我想从两个不同的列中获取虚拟数据但没有任何前缀资料说明 X Y 123 AAA 456 BBB 123 AAA 789 CCC 预期结果 X Y 789 456 123 CCC BBB AAA 123 AAA 0 0 1 0 0 1 4
Spark中的count和collect函数抛出IllegalArgumentException

当我使用时抛出此异常时我尝试在本地 Spark 上加载一个小数据集count 在 PySpark 中 take 似乎有效我试图搜索这个问题但没有找到原因看来RDD的分区有问题有任何想法吗先感谢您 sc stop sc Spark
numpy.cov() 返回意外的输出

我有一个 X 数据集有 9 个特征和 683 行 683x9 我想获取这个 X 数据集和另一个与 X 具有相同形状的数据集的协方差矩阵我使用np cov originalData generatedData rowvar False 代
Spyder 如何在同一线程的后台运行 asyncio 事件循环（或者确实如此？）

我已经研究 asyncio 模块功能几天了因为我想将它用于我的应用程序的 IO 绑定部分并且我认为我现在对它的工作原理有一个合理的理解或者在至少我认为我已经理解了以下内容任一时刻任一线程中只能运行一个异步事件循环一旦一切都设置
最小硬币找零问题——回溯

我正在尝试用最少数量的硬币解决硬币找零问题采用回溯法我实际上已经完成了它但我想添加一些选项按其单位打印硬币数量而不仅仅是总数这是我下面的Python代码 def minimum coins coin list change mi
issubclass() 对从不同路径导入的同一类返回 False

目的是实现某种插件框架其中插件是同一基类即 A 的子类即 B 基类使用标准导入加载而子类使用 imp load module 从众所周知的包即 pkg 的路径加载 pkg init py mod1 py class A mod2
在Python中从日期时间中减去秒

我有一个 int 变量它实际上是秒让我们调用这个秒数X 我需要得到当前日期和时间以日期时间格式减去的结果X秒 Example If X是 65 当前日期是2014 06 03 15 45 00 那么我需要得到结果2014 06 03

随机推荐

在 PHP 中使用变量作为函数名称 [重复]

这个问题在这里已经有答案了可能的重复使用变量定义 PHP 函数 https stackoverflow com questions 7213825 use a variable to define a php function 有没有办
空对象引用上的 android.os.Looper android.content.Context.getMainLooper()

我正在关注一个tutorial https www androidtutorialpoint com intermediate android map app showing current location android 学习使用谷歌地
从 dbpedia 获取改编成电影的书籍列表

我正在尝试获取改编自 dbpedia 书籍的美国电影列表这是我到目前为止所拥有的 PREFIX onto
Microsoft DI：针对非通用 ILog 接口注册通用 Log4NetAdapter<>

我正在将项目从 SimpleInjector 切换到 Microsoft 的内置 DI 容器在这个项目中我创建了一个通用 Log4NetAdapter 类我将其针对 Log4Net 的非通用 ILog 接口注册到 SimpleInje
使用 python 请求获取 CSRF 令牌

我目前正在使用 Python 请求并且需要 CSRF 令牌才能登录站点根据我的理解 requests Session 获取 cookie 但显然我需要令牌我还想知道将它放在我的代码中的哪里导入请求 user name input U
如何使用 indy10 Delphi 发送西里尔文数据

当我在网站上发送一些西里尔文字时该文字显示为这是我的发送功能 http TIDHttp Create nil http HandleRedirects true http ReadTimeout 5000 http Request Co
升级 vs 2012 更新 3 后无法连接到团队项目

我最近将我的 Visual Studio 从 2012 update 1 升级到 update 3 自升级以来团队资源管理器显示空的离线主页按团队资源管理器的连接页面上的配置团队项目不会执行任何操作我尝试修复卸载和安装并删除团队
如何在 Objective-C 中使用 Swift 非 NSObject 子类

我在 Objective C 项目中使用 Swift 时遇到一些问题例如我使用以下库 https github com Hearst DD ObjectMapper https github com Hearst DD ObjectMa
jQuery 将浏览器名称添加到 css-class 中

我使用 jQuery 来检测用户浏览器代理然后将浏览器名称作为 css 类添加到正文中这对于 webkit 和 mozilla 来说就像魔术一样但是对于 msie 它失败了但不知道为什么对于msie 我不仅要添加 msie 还要添
什么是 YUV 格式？（从一个不会玩的初学者的角度来看）[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案视频质量指标称为VMAF https github com Netflix vmaf由 Netflix 评估 YUV 格式的视频但什么是
Web 套接字会让 ajax/CORS 过时吗？

在所有 Web 浏览器中使用 Web 套接字会使 Ajax 过时吗因为如果我可以使用 Web 套接字来实时获取数据和更新数据为什么还需要 ajax 即使我在应用程序启动时使用 ajax 只获取一次数据我仍然可能想看看该数据在一段时间后
如何从 iOS 上的音频文件中提取元数据

我正在尝试使用 AVFoundation 框架从 mp3 和 m4a 文件中提取元数据这是测试代码 void printMetadataForFileAtPath NSString path NSURL url NSURL fileURL
使用 SQL 检查列是否包含文本

我有一个名为studentID 但我有millions记录并且应用程序以某种方式输入了一些任意文本在专栏中我如何搜索 SELECT FROM STUDENTS WHERE STUDENTID CONTAINS TEXT 将数据库建模问题
为什么 CSS 中引入了边距折叠规则？

这套巧妙的规则什么时候可以发挥作用它们打破了盒子模型的简单性当您将不同的布局组合在一起时它们会带来无限的麻烦那么原因是什么呢 Rules http www w3 org TR css3 box collapsing margins供
ftp_ssl_connect 和 ftp_nlist

我需要连接到远程系统以获取一些文件远程系统的规格提到所需的协议是 SFTP SSH 文件传输协议端口号是22 首先我使用 FTP 客户端应用程序尝试使用给定的凭据登录新服务器起初我遵循系统的规格使用了通过 SSH 进行 SFT
JOptionPane 变灰一键

我需要使用一个JOptionPane给用户两个选择根据之前的操作可能需要禁用其中一个按钮是否可以与JOptionPane能够将其中一个按钮设置为禁用或启用吗我怎样才能做到这一点如果您使用 JButtons 这很容易 public
在 PowerShell 中将控制台设置为最顶层

因此虽然有很多关于如何设置的建议forms最上面我找不到任何可以让我的控制台在最上面运行的东西所以我的问题是如何让我的控制台在脚本期间运行在最上面这需要一些 NET 互操作如本博客中所述 TechEd 2012 中的脚本第 1
worklight ant 任务应用程序部署 - WL 控制台安全性处于活动状态时出现未经授权的错误

我正在尝试使用提供的 ant 任务 app deployer 将应用程序部署到 WL Server v5 0 5 这是我使用的简单构建文件
Pandas - 将内存中作为字符串存储的csv读取到数据帧

将逗号分隔的文本存储在如下所示的 var 中 data Class Name Long Lat A ABC11 139 6295542 35 61144069 A ABC20 139 630596 35 61045559 A ABC03 1
Pandas 层次排序

我有一个类别和金额的数据框可以使用冒号分隔的字符串将类别无限嵌套到子类别中我希望按金额降序排序但以分层类型的方式如图所示我需要如何排序 CATEGORY AMOUNT Transport 5000 Transport Car 490

Pandas 层次排序

Pandas 层次排序 的相关文章

随机推荐

热门标签

Pandas 层次排序的相关文章