在 pandas 中使用 groupby 过滤数据

2024-01-09

我有一个 DataFrame,其中包含以下数据。每行代表电视剧每集中出现的一个单词。如果一个单词在一个剧集中出现 3 次,则 pandas 数据框有 3 行。现在我需要过滤一个单词列表,这样我应该只得到出现超过或等于 2 次的单词。我可以通过以下方式做到这一点groupby,但如果一个单词出现 2 次(或者说 3,4 或 5)次,我需要两行(3、4 或 5)行。

通过 groupby,我只会获得唯一的条目并进行计数,但我需要条目重复出现在对话中的次数。有没有单行代码可以做到这一点?

       dialogue  episode
0         music        1
1   corrections        1
2       somnath        1
3         yadav        5
4          join        2
5     instagram        1
6          wind        2
7         music        1
8    whimpering        2
9         music        1
10         wind        3

所以在这里我理想地应该得到,

   dialogue  episode
0     music        1
6      wind        2
7     music        1
9     music        1
10     wind        3

因为这是唯一出现次数超过或等于 2 次的 2 个单词。


您可以使用 groupby 的filter http://pandas.pydata.org/pandas-docs/stable/groupby.html#filtration:

In [11]: df.groupby("dialogue").filter(lambda x: len(x) > 1)
Out[11]:
   dialogue  episode
0     music        1
6      wind        2
7     music        1
9     music        1
10     wind        3
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在 pandas 中使用 groupby 过滤数据 的相关文章

  • 如何通过 python 中的函数运行列表?

    我试图通过我创建的函数运行我的列表 但不断收到错误 我不知道出了什么问题 温度 F temp f 19 21 21 21 23 功能 def fahrToCelsius tempFahrenheit return tempFahrenhei
  • Python 不考虑 distutils.cfg

    我已经尝试了给出的所有内容 并且所有教程都指向相同的方向 即使用 mingw 作为 python 而不是 Visual C 中的编译器 我确实有 Visual C 和 mingw 当我想使用 pip 安装时 问题开始出现 它总是给Unabl
  • 使用 Boto3 超时的 AWS Lambda 函数

    我已经解决了我自己的问题 但无论如何我都会发布它 希望能节省其他人几个小时 我在 AWS 上有一个无服务器项目 使用 Python 将记录插入到 kinesis 队列中 但是 当我使用 boto3 client kinesis 或 put
  • 动态字段取决于 WTForms 的先前字段

    我正在使用 WTForms 制作表格 目前 我有这个 class UploadForm flask wtf Form fichier wtforms fields FileField u Fichier description wtform
  • Python3将模块从文件夹导入到另一个文件夹

    我的结构字典是 mainFolder folder1 init py file1 py file2 py folder2 init py file3 py file4 py setup py init py 我需要将 file4 py 从f
  • Python Selenium 打印另存为 PDF 等待文件名输入

    我正在尝试通过打印对话框将网站另存为 PDF 我的代码允许我另存为pdf 但要求我输入文件名 我不知道如何将文件名传递到弹出框 附上我的代码 import time from selenium import webdriver import
  • 为什么需要设置WORKON_HOME环境变量?

    我已经有一段时间没有使用 python 虚拟环境了 但我也安装了虚拟环境包装器 我的问题是 在文档页面中它说要这样做 export WORKON HOME Envs mkdir p WORKON HOME source usr local
  • 了解 Python 2.7 中的缩进错误

    在编写 python 代码时 我往往会遇到很多缩进错误 有时 当我删除并重写该行时 错误就会消失 有人可以为菜鸟提供 python 中 IndentationErrors 的高级解释吗 以下是我在玩 CheckIO 时收到的最近 inden
  • 使用会话在 Django 中将文件从一个视图传递到另一个视图

    我当前的工作项目要求我允许用户上传各种格式的文件 目前仅处理 CSV 格式 然后使用包含的数据来绘制图表Pandas http pandas pydata org 图书馆 我决定将图形渲染到模板的最简单方法是为图形创建特定视图 然后将图像从
  • 使用 python 脚本更改 shell 中的工作目录

    我想实现一个用户态命令 它将采用其参数之一 路径 并将目录更改为该目录 程序完成后 我希望 shell 位于该目录中 所以我想实施cd命令 但需要外部程序 可以在 python 脚本中完成还是我必须编写 bash 包装器 Example t
  • Python在没有pandas的情况下解码excel表

    我正在尝试在 python 中读取 excel 文件而不使用pandas or xlrd 我一直在尝试将结果转换为bytes to utf 8没有任何成功 xls 文件中的数据 colA colB colC spc 1D0 20190705
  • 使用 ElementTree 在 python 中解析 xml

    我对 python 很陌生 我需要解析一些脏的 xml 文件 这些文件需要先清理 我有以下 python 代码 import arff import xml etree ElementTree import re totstring wit
  • Snakemake:将多个输入用于具有多个子组的一个输出的规则

    我有一个工作管道 用于下载 比对和对公共测序数据执行变体调用 问题是它目前只能在每个样本的基础上工作 i e作为每个单独测序实验的样本 如果我想对一组实验 例如样本的生物和 或技术复制 执行变体调用 则它不起作用 我试图解决它 但我无法让它
  • 获取多个同名请求参数

    我的问题是给定的代码 from flask import Flask request app Flask name app route def hello return str request values get param None a
  • 如何从邻接表高效创建稀疏邻接矩阵?

    我正在与last fm http labrosa ee columbia edu millionsong lastfm数据集来自百万歌曲数据集 http labrosa ee columbia edu millionsong 数据以一组 j
  • AttributeError: 'super' 对象没有属性 '__getattr__' 在 Kivy 中使用带有多个 kv 文件的 BoxLayout 时出错

    我很清楚 这个问题已经被问过好几次了 但尝试以下解决方案后 Python Kivy AttributeError 尝试获取 self ids 时 super 对象没有属性 getattr https stackoverflow com qu
  • 数据损坏 C++ 和 Python 之间的管道

    我正在编写一些代码 从 Python 获取二进制数据 将其通过管道传输到 C 对数据进行一些处理 在本例中计算互信息度量 然后将结果通过管道传输回 Python 在测试时 我发现如果我发送的数据是一组尺寸小于 1500 X 1500 的 2
  • 类返回语句不打印任何输出

    我正在学习课程 但遇到了问题return语句 它是语句吗 我希望如此 程序什么也没有打印出来 它只是结束而不做任何事情 class className def createName self name self name name def
  • Chrome 驱动程序和 Chromium 二进制文件无法在 aws lambda 上运行

    我陷入了一个问题 我需要在 AWS lambda 上做一些抓取工作 所以我按照下面提到的博客及其代码库作为起点 这非常有帮助 并且在运行时环境 Python 3 6 的 AWS lambda 上对我来说工作得很好 https manivan
  • 根据另一列中的键累积一列中的值时出现问题

    我有一个看起来像这样的数据框 我需要使用 PROJ ID 列中的字符串创建一个新的值列 并形成 PROJ NAME 列中的值字符串 这里提供的解决方案 根据 r 中另一列的键累积一列中的值 https stackoverflow com q

随机推荐

  • UITableView的动态高度

    如何通过约束获取 UITableView 的动态高度 它将根据行数增加 UITableView 高度 而无需在表中添加滚动条 我在 UIViewController 中添加 TableView 时遇到问题 并且 TableView 的高度不
  • 单击浏览器上的后退按钮时丢失表单数据[重复]

    这个问题在这里已经有答案了 当我单击任何浏览器时 我会丢失在下拉列表和文本输入类型的表单中输入的所有数据 这是服务器 浏览器还是编码问题 Thanks 这是浏览器问题 单击后退按钮时浏览器的行为有所不同 这种行为主要取决于用户的隐私设置 此
  • 在 Ubuntu 上使用 shell 脚本附加到 crontab

    我正在尝试在 Ubuntu 上的 crontab 中添加一行 现在 我正在做crontab e并在那里编辑 crontab 但是 我似乎找不到真正的 crontab 文件 因为crontab e似乎给你一个临时的工作副本 etc cront
  • 默认 Maven 插件版本是如何决定的?

    我想知道我何时没有在某些模块中指定插件版本pom xml像
  • Spring计划任务:监控执行持续时间

    我们在 Spring Web 应用程序中使用计划任务来发送提醒 每日摘要等
  • 将制表符分隔的文本文件读取到 Pandas 数据框中时出现 RunTimeError

    我正在将一个制表符分隔的文本文件读入 pandas 数据帧 在阅读本文时 我遇到了运行时错误 我已经浏览了与此错误相关的帖子 所有这些帖子都暗示了在迭代时不应修改字典的规则他们 就我而言 我所做的就是读取文件 这个问题如何与迭代和更改 di
  • 公共本机移动应用程序中的 WSO2 Api Manager OAuth2 DCR 安全性

    我正在为 iOS 和 Android 设计一个公共本机移动应用程序的安全性 该应用程序使用 WSO2 Api Manager APIM 使用公开可用的 API 因此 我了解与此设置相关的安全问题 并且我想将 OAuth2 应用于本机应用程序
  • Firebase - 在 NestJS 框架中处理云事件

    我在用着NestJS https nestjs com作为我的后端框架和 Firebase 要在 HTTP 请求上将 Nest 与 Firebase 集成起来很简单 只需将 Nest 的 Express 实例附加到 Firebase 即可
  • MIPS 是字节可寻址的

    我一直在观看以下 URL 上解释 MIPS ISA 的讲座 据我目前的理解 对于32位MIP 主存储器有一个32位地址输入总线 存储器中的每个插槽保存8位 因此每个地址可以引用8位存储器 这就是它的字节可寻址的原因 由于寄存器大小是 32
  • jQuery 在 rtl 方向上的scrollLeft - FireFox 和 Chrome 中的不同值

    我有以下简单的HTML div div table tr td T1 td td T2 td td T3 td td T4 td td T5 td td T6 td td T7 td tr table div div br span spa
  • US-ASCII 中的无效字节序列(Ruby 1.9 + Rails 2.3.8 + mongodb + mongo_mapper)

    我的设置是 linux Ruby 1 9 Rails 2 3 8 mongodb mongo mapper 我跟着http railscasts com episodes 194 mongodb and mongomapper http r
  • 使用 Cloud Functions for Firebase 获取匿名用户

    我正在使用 Cloud Functions 来管理项目中的数据库和身份验证 我按照这个例子https github com firebase functions samples tree master delete unused accou
  • 将浮点输入字符串流时出现“浮点无效操作”

    我有一段简单的代码 它从 FORTRAN 生成的 REAL 数组中提取浮点数 然后将其插入流中进行记录 尽管这适用于前 30 个案例 但在第 31 个案例中 它因 浮点无效操作 而崩溃 代码是 int FunctionDeclaration
  • 分配给映射中的匿名结构值

    我正在使用 go 1 3 如何访问映射的匿名结构 ValueType 的字段 package main import fmt type Words map string struct pos int n int func main w ma
  • Liquibase 先决条件不起作用

    我正在尝试使用 liquibase 来跟踪使用 dropwizard migrations 的 postgresql 数据库的更改 我希望能够在现有的生产数据库上运行迁移 而不是从头开始重建 现在我正在分阶段进行测试 我创建了一个带有前提条
  • 根据角度和距离求出Y点

    在我的项目中 我想从 X 点到 Y 点画一条线 虽然我知道 X 点的位置 但我只知道 Y 点的角度和距离 所以我的问题是通过角度 距X点 和距离得到Y点的坐标 我在这个项目中使用 JavaScript 并且不想使用任何图形库 例如 X 点
  • AppEngine/Go:将新版本的 Go 与 SDK 结合使用

    目前 Go SDK 附带的 Go 版本是 1 6 2 但最新版本是 1 7 1 我需要一些自 1 6 2 以来发布的增强功能 错误修复 但是 当我更换goroot在 SDK 目录中包含 Go 1 6 2 且符号链接指向 1 7 1 的目录中
  • 使用 Promise.all 解决获取请求

    我有一个包含 4 个请求对象的数组 我想在它们上使用 Fetch API 并获取承诺 然后我想解决每一个承诺并取回价值 这是我构建请求对象的方法 let requestsArray urlArray map url gt let reque
  • jQuery 动画 - 什么时候是异步的,什么时候不是?

    我有两个要设置动画的 div div div div div 我在 jQuery 中调用 animate 如下所示 sprite animate width 1 400 character animate width 1 400 chara
  • 在 pandas 中使用 groupby 过滤数据

    我有一个 DataFrame 其中包含以下数据 每行代表电视剧每集中出现的一个单词 如果一个单词在一个剧集中出现 3 次 则 pandas 数据框有 3 行 现在我需要过滤一个单词列表 这样我应该只得到出现超过或等于 2 次的单词 我可以通