在 pandas 中使用 groupby 过滤数据

2024-01-09

我有一个 DataFrame，其中包含以下数据。每行代表电视剧每集中出现的一个单词。如果一个单词在一个剧集中出现 3 次，则 pandas 数据框有 3 行。现在我需要过滤一个单词列表，这样我应该只得到出现超过或等于 2 次的单词。我可以通过以下方式做到这一点groupby，但如果一个单词出现 2 次（或者说 3,4 或 5）次，我需要两行（3、4 或 5）行。

通过 groupby，我只会获得唯一的条目并进行计数，但我需要条目重复出现在对话中的次数。有没有单行代码可以做到这一点？

       dialogue  episode
0         music        1
1   corrections        1
2       somnath        1
3         yadav        5
4          join        2
5     instagram        1
6          wind        2
7         music        1
8    whimpering        2
9         music        1
10         wind        3

所以在这里我理想地应该得到，

   dialogue  episode
0     music        1
6      wind        2
7     music        1
9     music        1
10     wind        3

因为这是唯一出现次数超过或等于 2 次的 2 个单词。

您可以使用 groupby 的filter http://pandas.pydata.org/pandas-docs/stable/groupby.html#filtration:

In [11]: df.groupby("dialogue").filter(lambda x: len(x) > 1)
Out[11]:
   dialogue  episode
0     music        1
6      wind        2
7     music        1
9     music        1
10     wind        3

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

在 pandas 中使用 groupby 过滤数据的相关文章

如何通过 python 中的函数运行列表？

我试图通过我创建的函数运行我的列表但不断收到错误我不知道出了什么问题温度 F temp f 19 21 21 21 23 功能 def fahrToCelsius tempFahrenheit return tempFahrenhei
Python 不考虑 distutils.cfg

我已经尝试了给出的所有内容并且所有教程都指向相同的方向即使用 mingw 作为 python 而不是 Visual C 中的编译器我确实有 Visual C 和 mingw 当我想使用 pip 安装时问题开始出现它总是给Unabl
使用 Boto3 超时的 AWS Lambda 函数

我已经解决了我自己的问题但无论如何我都会发布它希望能节省其他人几个小时我在 AWS 上有一个无服务器项目使用 Python 将记录插入到 kinesis 队列中但是当我使用 boto3 client kinesis 或 put
动态字段取决于 WTForms 的先前字段

我正在使用 WTForms 制作表格目前我有这个 class UploadForm flask wtf Form fichier wtforms fields FileField u Fichier description wtform
Python3将模块从文件夹导入到另一个文件夹

我的结构字典是 mainFolder folder1 init py file1 py file2 py folder2 init py file3 py file4 py setup py init py 我需要将 file4 py 从f
Python Selenium 打印另存为 PDF 等待文件名输入

我正在尝试通过打印对话框将网站另存为 PDF 我的代码允许我另存为pdf 但要求我输入文件名我不知道如何将文件名传递到弹出框附上我的代码 import time from selenium import webdriver import
为什么需要设置WORKON_HOME环境变量？

我已经有一段时间没有使用 python 虚拟环境了但我也安装了虚拟环境包装器我的问题是在文档页面中它说要这样做 export WORKON HOME Envs mkdir p WORKON HOME source usr local
了解 Python 2.7 中的缩进错误

在编写 python 代码时我往往会遇到很多缩进错误有时当我删除并重写该行时错误就会消失有人可以为菜鸟提供 python 中 IndentationErrors 的高级解释吗以下是我在玩 CheckIO 时收到的最近 inden
使用会话在 Django 中将文件从一个视图传递到另一个视图

我当前的工作项目要求我允许用户上传各种格式的文件目前仅处理 CSV 格式然后使用包含的数据来绘制图表Pandas http pandas pydata org 图书馆我决定将图形渲染到模板的最简单方法是为图形创建特定视图然后将图像从
使用 python 脚本更改 shell 中的工作目录

我想实现一个用户态命令它将采用其参数之一路径并将目录更改为该目录程序完成后我希望 shell 位于该目录中所以我想实施cd命令但需要外部程序可以在 python 脚本中完成还是我必须编写 bash 包装器 Example t
Python在没有pandas的情况下解码excel表

我正在尝试在 python 中读取 excel 文件而不使用pandas or xlrd 我一直在尝试将结果转换为bytes to utf 8没有任何成功 xls 文件中的数据 colA colB colC spc 1D0 20190705
使用 ElementTree 在 python 中解析 xml

我对 python 很陌生我需要解析一些脏的 xml 文件这些文件需要先清理我有以下 python 代码 import arff import xml etree ElementTree import re totstring wit
Snakemake：将多个输入用于具有多个子组的一个输出的规则

我有一个工作管道用于下载比对和对公共测序数据执行变体调用问题是它目前只能在每个样本的基础上工作 i e作为每个单独测序实验的样本如果我想对一组实验例如样本的生物和或技术复制执行变体调用则它不起作用我试图解决它但我无法让它
获取多个同名请求参数

我的问题是给定的代码 from flask import Flask request app Flask name app route def hello return str request values get param None a
如何从邻接表高效创建稀疏邻接矩阵？

我正在与last fm http labrosa ee columbia edu millionsong lastfm数据集来自百万歌曲数据集 http labrosa ee columbia edu millionsong 数据以一组 j
AttributeError: 'super' 对象没有属性 '__getattr__' 在 Kivy 中使用带有多个 kv 文件的 BoxLayout 时出错

我很清楚这个问题已经被问过好几次了但尝试以下解决方案后 Python Kivy AttributeError 尝试获取 self ids 时 super 对象没有属性 getattr https stackoverflow com qu
数据损坏 C++ 和 Python 之间的管道

我正在编写一些代码从 Python 获取二进制数据将其通过管道传输到 C 对数据进行一些处理在本例中计算互信息度量然后将结果通过管道传输回 Python 在测试时我发现如果我发送的数据是一组尺寸小于 1500 X 1500 的 2
类返回语句不打印任何输出

我正在学习课程但遇到了问题return语句它是语句吗我希望如此程序什么也没有打印出来它只是结束而不做任何事情 class className def createName self name self name name def
Chrome 驱动程序和 Chromium 二进制文件无法在 aws lambda 上运行

我陷入了一个问题我需要在 AWS lambda 上做一些抓取工作所以我按照下面提到的博客及其代码库作为起点这非常有帮助并且在运行时环境 Python 3 6 的 AWS lambda 上对我来说工作得很好 https manivan
根据另一列中的键累积一列中的值时出现问题

我有一个看起来像这样的数据框我需要使用 PROJ ID 列中的字符串创建一个新的值列并形成 PROJ NAME 列中的值字符串这里提供的解决方案根据 r 中另一列的键累积一列中的值 https stackoverflow com q

随机推荐

UITableView的动态高度

如何通过约束获取 UITableView 的动态高度它将根据行数增加 UITableView 高度而无需在表中添加滚动条我在 UIViewController 中添加 TableView 时遇到问题并且 TableView 的高度不
单击浏览器上的后退按钮时丢失表单数据[重复]

这个问题在这里已经有答案了当我单击任何浏览器时我会丢失在下拉列表和文本输入类型的表单中输入的所有数据这是服务器浏览器还是编码问题 Thanks 这是浏览器问题单击后退按钮时浏览器的行为有所不同这种行为主要取决于用户的隐私设置此
在 Ubuntu 上使用 shell 脚本附加到 crontab

我正在尝试在 Ubuntu 上的 crontab 中添加一行现在我正在做crontab e并在那里编辑 crontab 但是我似乎找不到真正的 crontab 文件因为crontab e似乎给你一个临时的工作副本 etc cront
默认 Maven 插件版本是如何决定的？

我想知道我何时没有在某些模块中指定插件版本pom xml像
Spring计划任务：监控执行持续时间

我们在 Spring Web 应用程序中使用计划任务来发送提醒每日摘要等
将制表符分隔的文本文件读取到 Pandas 数据框中时出现 RunTimeError

我正在将一个制表符分隔的文本文件读入 pandas 数据帧在阅读本文时我遇到了运行时错误我已经浏览了与此错误相关的帖子所有这些帖子都暗示了在迭代时不应修改字典的规则他们就我而言我所做的就是读取文件这个问题如何与迭代和更改 di
公共本机移动应用程序中的 WSO2 Api Manager OAuth2 DCR 安全性

我正在为 iOS 和 Android 设计一个公共本机移动应用程序的安全性该应用程序使用 WSO2 Api Manager APIM 使用公开可用的 API 因此我了解与此设置相关的安全问题并且我想将 OAuth2 应用于本机应用程序
Firebase - 在 NestJS 框架中处理云事件

我在用着NestJS https nestjs com作为我的后端框架和 Firebase 要在 HTTP 请求上将 Nest 与 Firebase 集成起来很简单只需将 Nest 的 Express 实例附加到 Firebase 即可
MIPS 是字节可寻址的

我一直在观看以下 URL 上解释 MIPS ISA 的讲座据我目前的理解对于32位MIP 主存储器有一个32位地址输入总线存储器中的每个插槽保存8位因此每个地址可以引用8位存储器这就是它的字节可寻址的原因由于寄存器大小是 32
jQuery 在 rtl 方向上的scrollLeft - FireFox 和 Chrome 中的不同值

我有以下简单的HTML div div table tr td T1 td td T2 td td T3 td td T4 td td T5 td td T6 td td T7 td tr table div div br span spa
US-ASCII 中的无效字节序列（Ruby 1.9 + Rails 2.3.8 + mongodb + mongo_mapper）

我的设置是 linux Ruby 1 9 Rails 2 3 8 mongodb mongo mapper 我跟着http railscasts com episodes 194 mongodb and mongomapper http r
使用 Cloud Functions for Firebase 获取匿名用户

我正在使用 Cloud Functions 来管理项目中的数据库和身份验证我按照这个例子https github com firebase functions samples tree master delete unused accou
将浮点输入字符串流时出现“浮点无效操作”

我有一段简单的代码它从 FORTRAN 生成的 REAL 数组中提取浮点数然后将其插入流中进行记录尽管这适用于前 30 个案例但在第 31 个案例中它因浮点无效操作而崩溃代码是 int FunctionDeclaration
分配给映射中的匿名结构值

我正在使用 go 1 3 如何访问映射的匿名结构 ValueType 的字段 package main import fmt type Words map string struct pos int n int func main w ma
Liquibase 先决条件不起作用

我正在尝试使用 liquibase 来跟踪使用 dropwizard migrations 的 postgresql 数据库的更改我希望能够在现有的生产数据库上运行迁移而不是从头开始重建现在我正在分阶段进行测试我创建了一个带有前提条
根据角度和距离求出Y点

在我的项目中我想从 X 点到 Y 点画一条线虽然我知道 X 点的位置但我只知道 Y 点的角度和距离所以我的问题是通过角度距X点和距离得到Y点的坐标我在这个项目中使用 JavaScript 并且不想使用任何图形库例如 X 点
AppEngine/Go：将新版本的 Go 与 SDK 结合使用

目前 Go SDK 附带的 Go 版本是 1 6 2 但最新版本是 1 7 1 我需要一些自 1 6 2 以来发布的增强功能错误修复但是当我更换goroot在 SDK 目录中包含 Go 1 6 2 且符号链接指向 1 7 1 的目录中
使用 Promise.all 解决获取请求

我有一个包含 4 个请求对象的数组我想在它们上使用 Fetch API 并获取承诺然后我想解决每一个承诺并取回价值这是我构建请求对象的方法 let requestsArray urlArray map url gt let reque
jQuery 动画 - 什么时候是异步的，什么时候不是？

我有两个要设置动画的 div div div div div 我在 jQuery 中调用 animate 如下所示 sprite animate width 1 400 character animate width 1 400 chara
在 pandas 中使用 groupby 过滤数据

我有一个 DataFrame 其中包含以下数据每行代表电视剧每集中出现的一个单词如果一个单词在一个剧集中出现 3 次则 pandas 数据框有 3 行现在我需要过滤一个单词列表这样我应该只得到出现超过或等于 2 次的单词我可以通

在 pandas 中使用 groupby 过滤数据

在 pandas 中使用 groupby 过滤数据 的相关文章

随机推荐

热门标签

在 pandas 中使用 groupby 过滤数据的相关文章