熊猫，按计数分组并将计数添加到原始数据帧？

2024-02-19

当尝试计算数据框中具有相似“种类”的行时：

import pandas as pd

items = [('aaa','aaa text 1'), ('aaa','aaa text 2'), ('aaa','aaa text 3'),
         ('bb', 'bb text 1'), ('bb', 'bb text 2'), ('bb', 'bb text 3'), 
         ('bb', 'bb text 4'),
         ('cccc','cccc text 1'), ('cccc','cccc text 2'),
         ('dd', 'dd text 1'),
         ('e', 'e text 1'),
         ('fff', 'fff text 1'),
        ]

df = pd.DataFrame(items, columns=['kind', 'msg'])
df

    kind    msg
0   aaa     aaa text 1
1   aaa     aaa text 2
2   aaa     aaa text 3
3   bb      bb text 1
4   bb      bb text 2
5   bb      bb text 3
6   bb      bb text 4
7   cccc    cccc text 1
8   cccc    cccc text 2
9   dd      dd text 1
10  e       e text 1
11  fff     fff text 1

这段代码的工作原理：

df = df[['kind']].groupby(['kind'])['kind'] \
                         .count() \
                         .reset_index(name='count') \
                         .sort_values(['count'], ascending=False) \
                         .head(5)

df

导致：

    kind      count
    0   aaa   1
    1   bb    1
    2   cccc  1
    3   dd    1
    4   e     1

然而，如何获得一个包含所有列的数据框，就像原始的一加“计数”列一样？那么结果应该按此顺序包含“kind”、“msg”、“count”列？

另外，如何按计数降序对结果数据框进行排序？

IIUC

In [247]: df['count'] = df.groupby('kind').transform('count')

In [248]: df
Out[248]:
    kind          msg  count
0    aaa   aaa text 1      3
1    aaa   aaa text 2      3
2    aaa   aaa text 3      3
3     bb    bb text 1      4
4     bb    bb text 2      4
5     bb    bb text 3      4
6     bb    bb text 4      4
7   cccc  cccc text 1      2
8   cccc  cccc text 2      2
9     dd    dd text 1      1
10     e     e text 1      1
11   fff   fff text 1      1

sorting:

In [249]: df.sort_values('count', ascending=False)
Out[249]:
    kind          msg  count
3     bb    bb text 1      4
4     bb    bb text 2      4
5     bb    bb text 3      4
6     bb    bb text 4      4
0    aaa   aaa text 1      3
1    aaa   aaa text 2      3
2    aaa   aaa text 3      3
7   cccc  cccc text 1      2
8   cccc  cccc text 2      2
9     dd    dd text 1      1
10     e     e text 1      1
11   fff   fff text 1      1

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas

DataFrame

熊猫，按计数分组并将计数添加到原始数据帧？的相关文章

简单的数据框重塑

我刚刚从长时间的写作中断中回到 R 并且在记住如何重塑数据方面遇到了一些实际问题我知道我想做的事情很容易但出于某种原因我今晚很愚蠢并且将自己与融化和重塑混淆了如果有人能快速指出我正确的方向我将不胜感激我有一个这样的数据框 pe
在 R 中进行 Cox 回归后，将预测危险比列添加到数据帧中

在 R 中运行 Cox PH 回归后我需要在数据框中添加预测风险比的列数据框是面板数据其中 numgvkey 如果公司标识符和年龄是时间标识符您可以从此链接下载一小部分日期 https drive google com file
如何在 Spark Dataframe 中显示完整的列内容？

我正在使用 Spark csv 将数据加载到 DataFrame 中我想做一个简单的查询并显示内容 val df sqlContext read format com databricks spark csv option header
在 pandas DataFrame 中使用比较列表的问题

我在 pandas 中有一个 DataFrame 其列类型之一是 int 上的列表如下所示 df pandas DataFrame 1 2 3 4 5 6 7 8 9 10 columns a b c d gt gt gt df a b
Pandas 数据透视表同时包含多列

我怀疑是否pandas pivot table可以一次接受两列并单独处理它们而不是分层处理假设我有以下数据框 id date day val 101 11 1 1 1 2 1 101 11 1 2 2 2 2 101 11 1 3 3
在绘图中的线间隙之间添加注释

I have a graph like this 而不是在上面的日子symbol 我想知道是否有办法可以在行之间添加此注释从一个点到另一个点如果以防万一这可能是重复的我深表歉意 This is my expected output
我可以在某些网格中打印带有颜色的 pandas 数据框吗？

我有一个 pandas DataFrame 我想突出显示一些数据例如 In 1 import pandas as pd In 2 import numpy as np In 3 df pd DataFrame np reshape ran
如何从文件中读取两行并在 for 循环中创建动态键，后续

这个问题紧接着所讨论的问题如何从文件中读取两行并在 for 循环中创建动态键 https stackoverflow com q 41929351 868546 但是问题的本质已经发展到我想要解决的某种复杂性下面是我的数据结构用空格
为每列指定不同的 float_format（科学记数法与小数精度）

我有多个列有些我想要科学记数法其他的则需要特定级别的小数精度 Frequency n 0 0 0023 2 3 1 0 0420 4 5 2 0 5460 6 7 3 0 1230 8 9 频率可以有很小的数量级所以我最终得到了十亿个
将 JSON URL 转换为 R 数据帧

我在将 JSON 文件从 API 转换为 R 中的数据帧时遇到问题例如 URL 我尝试了 S O 的一些不同建议包括将json数据转换为R中的数据框 https stackoverflow com questions 28683769
如何根据条件表达式从 pandas DataFrame 中删除行[重复]

这个问题在这里已经有答案了我有一个 pandas DataFrame 我想从中删除特定列中字符串长度大于 2 的行我希望能够做到这一点每这个答案 https stackoverflow com questions 11881165 s
SQLAlchemy 中 mssql+pyodbc 出现“数据源名称太长”错误

我正在尝试使用 SQLAlchemy 和 pyodbc 将数据帧上传到 Azure SQL Server 数据库上的数据库我已建立连接但上传时出现错误 pyodbc Error IM010 IM010 Microsoft ODBC 驱动
Python：json_normalize pandas 系列给出 TypeError

我在 pandas 系列中有数万行像这样的 json 片段df json IDs lotId 1 Id 123456 date 2009 04 17 bidsCount 2 IDs lotId 2 Id 123456 date 2009 0
Pandas 合并指标自定义值

在 pandas 合并期间将指示器更新为更友好的消息的最快方法是什么默认indicator True yields left only right only both 我想更新为Only present in last month s d
如何从邻接表高效创建稀疏邻接矩阵？

我正在与last fm http labrosa ee columbia edu millionsong lastfm数据集来自百万歌曲数据集 http labrosa ee columbia edu millionsong 数据以一组 j
如何将两列 pandas Dataframe 移动并堆叠为一列？

我有一个下面提到的数据框 ETHNIC SEX USUBJID 0 HISPANIC OR LATINO F 16 1 HISPANIC OR LATINO M 8 2 HISPANIC OR LATINO Total 24 3 NOT H
用 pandas DataFrame 替换 mysql 数据库表中的行

Python 版本 2 7 6 熊猫版本 0 17 1 MySQLdb 版本 1 2 5 在我的数据库中 PRODUCT 我有一张桌子 XML FEED 表 XML FEED 很大数百万条记录我有一个 pandas DataFrame
有没有办法使用 Python Pandas 读取所有行，直到遇到空行

我在 Excel 中有很多行并且这些行在空行之后填充有垃圾值有没有办法使用 Python pandas 只读取 Excel 中第一个空行之前的记录我不知道 read excel 是否可以做到这一点如果您从 Excel 导入空行这些
解析时区并转换为夏令时

我有一个 pandas 数据框Datetime column Datetime 0 2019 01 01 17 02 00 1 2019 01 01 17 03 00 2 2019 01 01 17 04 00 3 2019 01 01 1
在 DataFrame.withColumn 中，如何检查列的值是否为 null 作为第二个参数的条件？

如果我有一个名为 df 的 DataFrame 如下所示 a1 a2 foo bar N A baz null etc 我可以有选择地替换值如下所示 val df2 df withColumn a1 when a1 N A a2 这样 d

随机推荐

Autofac 注册程序集类型

在 Castle 中我曾经执行以下操作来注册来自不同程序集的类型 Classes FromAssemblyNamed MyServer DAL Where type gt type Name EndsWith Repository Wit
重叠绝对定位的内容

我遇到了一些困难这一页 http louiswalch com beta t urs 它几乎可以正常工作红色框应位于窗口的中心 h v 作品黄色框应贴在窗口底部作品当窗口小于 400 像素高时应出现滚动条并且黄色框应出现在滚动区
按第二列中的时间戳合并多个日志文件

我有同一天的多个日志文件我想要做的是根据日志中的时间戳将它们合并为一个Perl script 日志 1 log 2014 06 02 21 54 38 805 INFO com HomeManeger Executor Thread 19
我们怎么知道这是数组中的最后一个元素？

我有以下代码 int array 5 1 0 1 0 0 int i for i 0 i lt 5 i if array i 1 printf found one n 我们怎么知道第二个1 in the array是最后一个1我们发现我的
查找每个点坐标属于哪个国家/地区[重复]

这个问题在这里已经有答案了我有一个带有纬度经度坐标的数据框 head COORD LAT LON 1 69 34 16 17 2 69 20 17 92 3 69 59 17 87 4 69 17 18 52 5 69 42 18 95
多选 PHP
用 Spirit Qi 解析成 std::vector，出现段错误或断言失败

我使用 Spirit Qi 作为解析器将数学表达式解析为表达式树我跟踪诸如解析时遇到的符号类型之类的事情并且必须在我正在解析的文本中声明这些符号也就是说我正在解析贝尔蒂尼输入文件 http bertini nd edu Berti
有 libclang 的教程吗？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我一直在寻找一些易于理解的 libclang 指南我在这里或其他论坛上看到了一些帖子但唯一推荐的信
如何使用 ef core 1 在 UWP 中运行迁移

我不知道如何使用 EntityFramework Commands 也是 v7 0 0 rc1 final 在 EntityFramework Core v7 0 0 rc1 final 中运行迁移当我添加迁移 Add Migration
Actionscript 3 内省——函数名称

我试图迭代对象的每个成员对于每个成员我检查它是否是一个函数如果它是一个函数我想获取它的名称并根据函数的名称执行一些逻辑我不知道这是否可能是吗有小费吗 example var mems Object getMemberNames
如何在 C# 和 DataAnnotation 中创建通用 UniqueValidationAttribute？

我正在尝试创建一个UniqueAttribute使用System ComponentModel DataAnnotations ValidationAttribute 我希望这是通用的因为我可以传递 Linq DataContext 表名
在浏览器窗口中更改 PDF 标题

我有一个 pdf 文件正在为客户放在网站上它位于这里 http www optiphysicaltherapy com dev wp content uploads 2014 02 OPTI NewPatientForms pdf ht
如何更改消息框标题？ [复制]

这个问题在这里已经有答案了如何在asp net中更改此消息框的标题该标题出现在 IE 中帮忙你不能没有 API 可以执行此操作默认标题是反网络钓鱼安全功能如果您希望对警报消息的外观有足够的控制那么您必须在 DOM 中构建自己
CGContextDrawImage 崩溃

代码如下 void drawLayer CALayer layer inContext CGContextRef ctx CGContextRef context ctx CGContextRetain context CGContextS
应用程序的沙箱虚拟机（概念）

我想编写一个沙箱虚拟机来执行已编译的程序我的目标是将该程序与操作系统的其余部分隔离并控制其执行以便它不会对主机做出任何有害的事情我假设执行的程序被编译为可移植可执行格式并且是机器代码而不是任何类型的字节代码或 CLR 执行的程序
在 python 中，是否有跨平台的方法来确定哪个进程正在侦听给定端口？

在linux下我可以使用lsof i如以下函数所示 def FindProcessUsingPort portnum import os fp os popen lsof i s portnum lines fp readlines fp
Android 12 模拟器预览版无连接

我已经安装了 Android 12 Preview 模拟器我遇到了很多问题因为模拟器在启动时崩溃但在卸载并再次安装并重新启动机器等后我设法启动它我现在遇到的问题是互联网连接不起作用所有其他模拟器都工作正常我尝试从命令行启动模拟
Android：向EditText字段添加小数点，并使其随输入移动

在我的应用程序中用户可以在文本字段中输入美元金额问题是我需要输入在输入数字时适应最终数字而不实际输入小数点解释这一点的最好方法是用一个例子假设用户从包含以下内容的 EditText 字段开始用户想要在字段中输入 12 53 即
为 Google App Engine 配置 Jackson

有什么办法可以配置吗Jackson 配置对象映射器哪个用于序列化 servlet 响应 Api name rates version v1 title Rates API public class RatesApi static Logg
熊猫，按计数分组并将计数添加到原始数据帧？

当尝试计算数据框中具有相似种类的行时 import pandas as pd items aaa aaa text 1 aaa aaa text 2 aaa aaa text 3 bb bb text 1 bb bb text 2 bb

熊猫，按计数分组并将计数添加到原始数据帧？

熊猫，按计数分组并将计数添加到原始数据帧？ 的相关文章

随机推荐

热门标签

熊猫，按计数分组并将计数添加到原始数据帧？的相关文章