熊猫：有条件的groupby

2024-05-11

我有数据框：

ID,used_at,active_seconds,subdomain,visiting,category
123,2016-02-05 19:39:21,2,yandex.ru,2,Computers
123,2016-02-05 19:43:01,1,mail.yandex.ru,2,Computers
123,2016-02-05 19:43:13,6,mail.yandex.ru,2,Computers
234,2016-02-05 19:46:09,16,avito.ru,2,Automobiles
234,2016-02-05 19:48:36,21,avito.ru,2,Automobiles
345,2016-02-05 19:48:59,58,avito.ru,2,Automobiles
345,2016-02-05 19:51:21,4,avito.ru,2,Automobiles
345,2016-02-05 19:58:55,4,disk.yandex.ru,2,Computers
345,2016-02-05 19:59:21,2,mail.ru,2,Computers
456,2016-02-05 19:59:27,2,mail.ru,2,Computers
456,2016-02-05 20:02:15,18,avito.ru,2,Automobiles
456,2016-02-05 20:04:55,8,avito.ru,2,Automobiles
456,2016-02-05 20:07:21,24,avito.ru,2,Automobiles
567,2016-02-05 20:09:03,58,avito.ru,2,Automobiles
567,2016-02-05 20:10:01,26,avito.ru,2,Automobiles
567,2016-02-05 20:11:51,30,disk.yandex.ru,2,Computers

我需要去做

group = df.groupby(['category']).agg({'active_seconds': sum}).rename(columns={'active_seconds': 'count_sec_target'}).reset_index()

但我想添加与以下条件相关的条件

df.groupby(['category'])['ID'].count()

如果算作category少于5，我想放弃这个类别。我不知道，我怎么能在那里写这个条件。

As EdChum 评论 https://stackoverflow.com/questions/39634175/pandas-groupby-with-condition/39634269#comment66572870_39634175，您可以使用filter http://pandas.pydata.org/pandas-docs/stable/groupby.html#filtration:

您还可以通过以下方式简化聚合sum:

df = df.groupby(['category']).filter(lambda x: len(x) >= 5)

group = df.groupby(['category'], as_index=False)['active_seconds']
          .sum()
          .rename(columns={'active_seconds': 'count_sec_target'})
print (group)

      category  count_sec_target
0  Automobiles               233
1    Computers                47

另一种解决方案是reset_index http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.reset_index.html:

df = df.groupby(['category']).filter(lambda x: len(x) >= 5)

group = df.groupby(['category'])['active_seconds'].sum().reset_index(name='count_sec_target')
print (group)
      category  count_sec_target
0  Automobiles               233
1    Computers                47

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

filter

groupby

conditionalstatements

熊猫：有条件的groupby 的相关文章

计算另一个字符串中多个字符串的出现次数

在 Python 2 7 中给定以下字符串 Spot是一只棕色的狗斑点有棕色的头发斑点的头发是棕色的查找字符串中 Spot brown 和 hair 总数的最佳方法是什么在示例中它将返回 8 我正在寻找类似的东西string c
在 Celery 任务中调用 Google Cloud API 永远不会返回

我正在尝试拨打外部电话Google Cloud Natural Language API从一个内Celery任务使用google cloud python包裹问题是对 API 的调用永远不会返回挂起 celery task def g
Django Rest Framework 是否有第三方应用程序来自动生成 swagger.yaml 文件？

我有大量的 API 端点编写在django rest framework并且不断增加和更新如何创建和维护最新的 API 文档我当前的版本是 Create swagger yaml文件并以某种方式在每次端点更改时自动生成然后使用此文件作
Javascript正则表达式用于字母字符和空格？ [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我需要一个
为什么 web2py 在启动时崩溃？

我正在尝试让 web2py 在 Ubuntu 机器上运行所有文档似乎都表明要在 nix 系统上运行它您需要下载源代码并执行以下操作蟒蛇 web2py py 我抓住了source http www web2py com examples
矩形函数的数值傅里叶变换

本文的目的是通过一个众所周知的分析傅里叶变换示例来正确理解 Python 或 Matlab 上的数值傅里叶变换为此我选择矩形函数这里报告了它的解析表达式及其傅立叶变换https en wikipedia org wiki Rectan
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
Java 和 Python 可以在同一个应用程序中共存吗？

我需要一个 Java 实例直接从 Python 实例数据存储中获取数据我不知道这是否可能数据存储是否透明唯一或者每个实例如果它们确实可以共存都有其单独的数据存储总结一下 Java 应用程序如何从 Python 应用程序的数据存
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
Python - 如何确定解析的 XML 元素的层次结构级别？

我正在尝试使用 Python 解析 XML 文件中具有特定标记的元素并生成输出 excel 文档该文档将包含元素并保留其层次结构我的问题是我无法弄清楚每个元素解析器在其上迭代的嵌套深度 XML 示例摘录 3 个元素它们可以任意嵌套
Python GTK+ 画布

我目前正在通过 PyGobject 学习 GTK 需要画布之类的东西我已经搜索了文档发现两个小部件似乎可以完成这项工作 GtkDrawingArea 和 GtkLayout 我需要一些基本函数如 fillrect 或 drawline
python 中的“槽包装器”是什么？

object dict 和其他地方的隐藏方法设置为这样的
重新分配唯一值 - pandas DataFrame

我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人总体目标是使用尽可能少的个人诀窍在于这
如何将 Django 中的权限添加到模型并使用 shell 进行测试

我在模型中添加了 Meta 类并同步了数据库然后在 shell 中创建了一个对象它返回 false 所以我真的无法理解错误在哪里或者缺少什么是否在其他文件中可能存在某种配置 class Employer User Employer in
等待子进程使用 os.system

我用了很多os system在 for 循环内调用创建后台进程如何等待所有后台进程结束 os wait告诉我没有子进程 ps 我使用的是Solaris 这是我的代码 usr bin python import subprocess imp
在virtualenv中下载sqlite3

我正在尝试使用命令创建应用程序python3 manage py startapp webapp但我收到一条错误消息 django core exceptions ImproperlyConfigured 加载时出错 pysqlite2 或
如何使用 PrimaryKeyRelatedField 更新多对多关系上的类别

Django Rest 框架有一个主键相关字段 http www django rest framework org api guide relations primarykeyrelatedfield其中列出了我的 IDmany to m
NLTK：查找单词大小为 2k 的上下文

我有一个语料库我有一个词对于语料库中该单词的每次出现我想获取一个包含该单词之前的 k 个单词和该单词之后的 k 个单词的列表我在算法上做得很好见下文但我想知道 NLTK 是否提供了一些我错过的功能来满足我的需求 def size
如何在Python脚本中从youtube-dl中提取文件大小？

我是 python 编程新手我想在下载之前提取视频音频大小任何 YouTube 视频 gt gt gt from youtube dl import YoutubeDL gt gt gt url https www youtube c

随机推荐

SQL Server 2008 XPath

我们尝试根据我们提供的值过滤一组 XML 我们的数据库的 XML 字段中有以下 XML 如果传递数字 5052095050830 我们需要在 XML 中找到这个特定节点我们提供的号码可能存在任意多次任何机构都可以提供一些 SQL 示例来
MySQL JSON 存储与两个表

与使用单独的元表相比使用 JSON 在表中存储数据有什么好处吗这是原始架构 Users Table UserId Username Etc 5 John Avatar Table Id UserId ImageName ImageTyp
Amazon EC2 实例上和本地的 RabbitMQ？

是否可以设置一个RabbitMQ服务器上的Amazon EC2 instance 并将我办公室的机器连接到此RabbitMQ服务器并向其发送接收消息我会被收取费用吗Amazon对于流入流出我的带宽消息RabbitMQ EC2 ins
C# - 使用 DataAdapter 从 DataTable 更新 SQL 表 - SQL 表未更新 [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions I select fromExcel
将更改恢复到特定提交

我为自己创建了一个新分支现在我需要一次将多个提交从主分支恢复到特定提交我知道有一个安全的命令可以使用git revert no commit COMMIT TO REVERT FROM COMMIT TO REVERT TO 这给了我e
如何在 libjpeg-turbo 中使用 jpeg_mem_src、jpeg_mem_dest？

libjpeg8 包含这两个函数但在 libjpeg turbo 中包含以下函数 jconfig h define JPEG LIB VERSION 62 jpeglib h if JPEG LIB VERSION gt 80 Data
是否有可能在linux中找到包含特定文本的文件？

考虑这种情况我在文件夹 Example 下有很多文件如果我需要找到一个包含特定短语如 Class Example 的文件我该如何使用 Linux shell 来做到这一点 linux中有类似定位的函数可以做到这一点吗 Thank
在优先级相等的情况下保持优先级队列插入顺序

我正在使用priorityQueue 来实现BFS 我想在插入时和弹出后在优先级相同的情况下保持插入顺序我重写了 equals 方法如下所示并且插入顺序在插入时按预期保持但一旦我进行删除或民意调查元素的顺序发生变化即使在轮询中
CPAN shell 内存不足。在 Unix 上如何给它更多的内存？

我得到一个Out of memory 所有安装的消息我以前从未使用过 cpan 并且不太确定它是如何工作的我做了一个ulimit在 cpan 目录中结果是无限的这是我正在看的内容 usr bin perl MCPAN e shell
无法将 C 代码链接到 lapack / blas：未定义的引用

我已经尝试了好几个小时了这让我发疯我得到的最后一个错误是 demo cblas c text 0x83 undefined reference to clapack sgetrf demo cblas c text 0xa3 undef
tomcat在Spring Boot中不创建访问日志

我按照中的说明进行操作this https stackoverflow com a 35001421 18573回答和弹簧靴 https docs spring io spring boot docs current reference h
如何从 Oracle 中的 select 语句调用带有 Rowtype 参数的函数

我有一个 oracle 函数它有一个 in 参数它是表的行类型我需要从 select 语句将当前行传递给这个函数以便它进行一些处理并返回一个值是否有一个伪变量可以在 select 语句的上下文中使用相当于触发器中的旧的和新的我
如何在fish shell脚本中获取程序名称？

在 bash 中与在 ruby 中一样程序名称由 0 给出鱼里有什么如果有必要我可以执行以下操作 set PROGRAM ps no header o args p self egrep o S 2 但我确信程序名称必须已经在某个
如何在 Qt-Embedded 中（正确）输出多语言文本？

我的目标系统是 linux 3 3 7 Qt Embedded 开源版 4 8 Droid 字体取自 fonts droid 20111207 git 1 all deb Debian 软件包并复制到 usr lib fonts目录主要
如何使用 Node.js 解决“找不到模块”错误？

从 GitHub 拉取模块并按照说明构建它后我尝试使用以下命令将其拉入现有项目 gt npm install faye 这似乎可以解决问题 gt npm list home dave src server email protected
在minidom python中添加带有属性的元素

我想将具有属性的子节点添加到特定标记我的xml是
java.lang.ClassNotFoundException：将 akka 2.5.6 与 sbt 版本 1.0.2 一起使用时的 scala.Int

我正在尝试将 akka remoting 版本 2 5 4 与最新的 sbt 1 0 2 一起使用当我使用 sbt 版本 0 13 15 或 0 13 16 时它运行得很好但是当我使用 sbt 版本 1 0 2 作为here http
如何正确地将样式应用于 Content Presenter

我正在研究有关链接按钮的问题的答案 https stackoverflow com a 3564706 945 https stackoverflow com a 3564706 945 问题是 TextDecoration Underli
CSS 不适用于 CakePHP 应用程序

我在使用 CakePHP 时遇到问题找不到 CSS 当我在浏览器中查看源代码时我可以在头部看到蛋糕通用 CSS 链接但是当我点击它查看实际的源代码时我收到了 404 未找到错误 Update 我已按照此处的说明进行操作 http b
熊猫：有条件的groupby

我有数据框 ID used at active seconds subdomain visiting category 123 2016 02 05 19 39 21 2 yandex ru 2 Computers 123 2016 02

熊猫：有条件的groupby

熊猫：有条件的groupby 的相关文章

随机推荐

热门标签