Pandas：根据其他行删除行

2023-11-26

我有一个 pandas 数据框，如下所示：

qseqid  sseqid  qstart    qend
2         1     125       345
4         1     150       320
3         2     150       450
6         2     25        300
8         2     50        500

我想根据以下条件删除基于其他行值的行：如果存在具有相同条件的另一行 (r2)，则必须删除行 (r1)sseqid and r1[qstart] > r2[qstart] and r1[qend] < r2[qend].

这对熊猫来说可能吗？

df  = pd.DataFrame({'qend': [345, 320, 450, 300, 500],
 'qseqid': [2, 4, 3, 6, 8],
 'qstart': [125, 150, 150, 25, 50],
 'sseqid': [1, 1, 2, 2, 2]})

def remove_rows(df):
    merged = pd.merge(df.reset_index(), df, on='sseqid')
    mask = ((merged['qstart_x'] > merged['qstart_y']) 
            & (merged['qend_x'] < merged['qend_y']))
    df_mask = ~df.index.isin(merged.loc[mask, 'index'].values)
    result = df.loc[df_mask]
    return result

result = remove_rows(df)
print(result)

yields

   qend  qseqid  qstart  sseqid
0   345       2     125       1
3   300       6      25       2
4   500       8      50       2

这个想法是使用pd.merge用每对行形成一个 DataFrame 与相同的sseqid:

In [78]: pd.merge(df.reset_index(), df, on='sseqid')
Out[78]: 
    index  qend_x  qseqid_x  qstart_x  sseqid  qend_y  qseqid_y  qstart_y
0       0     345         2       125       1     345         2       125
1       0     345         2       125       1     320         4       150
2       1     320         4       150       1     345         2       125
3       1     320         4       150       1     320         4       150
4       2     450         3       150       2     450         3       150
5       2     450         3       150       2     300         6        25
6       2     450         3       150       2     500         8        50
7       3     300         6        25       2     450         3       150
8       3     300         6        25       2     300         6        25
9       3     300         6        25       2     500         8        50
10      4     500         8        50       2     450         3       150
11      4     500         8        50       2     300         6        25
12      4     500         8        50       2     500         8        50

merged 的每一行包含 df 的两行数据。然后您可以使用比较每两行

mask = ((merged['qstart_x'] > merged['qstart_y']) 
        & (merged['qend_x'] < merged['qend_y']))

并找到标签df.index不符合此条件的：

df_mask = ~df.index.isin(merged.loc[mask, 'index'].values)

并选择这些行：

result = df.loc[df_mask]

请注意，这假设df有唯一索引。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

Pandas：根据其他行删除行的相关文章

Python：记录垃圾收集器

我有一个 python 应用程序有一些性能问题我想将垃圾收集器的事件特别是何时调用添加到我的日志中是否可以 thanks http docs python org library gc html gc set debug http
Python 在 chroot 中运行时出现错误

我尝试在 chroot 中运行一些 Python 程序但出现以下错误 Could not find platform independent libraries
为什么在 Windows 中使用 GetConsoleScreenBufferInfoEx 时控制台窗口会缩小？

我正在尝试使用 GetConsoleScreenBufferInfoEx 和 SetConsoleScreenBufferInfoEx 设置 Windows 命令行控制台的背景和前景色我正在 Python 中使用 wintypes 进行此
将 API 数据存储到 DataFrame 中

我正在运行 Python 脚本来从 Interactive Brokers API 收集金融市场数据连接到API后终端打印出请求的历史数据如何将数据保存到数据帧中而不是在终端中流式传输 from ibapi wrapper impor
Scikit-learn 的内核 PCA：如何在 KPCA 中实现各向异性高斯内核或任何其他自定义内核？

我目前正在使用Scikit learn 的 KPCA https scikit learn org stable modules generated sklearn decomposition KernelPCA html对我的数据集执行降
字典中的列表，Python 中的循环

我有以下代码 TYPES hotmail type hotmail lookup mixed dkim no signatures S Return Path email protected cdn cgi l email protecti
Python 正则表达式部分匹配或“hitEnd”

我正在编写一个扫描器因此我将任意字符串与正则表达式规则列表进行匹配如果我可以模拟 Java hitEnd 功能不仅知道正则表达式何时不匹配还知道何时匹配这将非常有用 can t匹配当正则表达式匹配器在决定拒绝输入之前到达输入末尾
在Python中创建一个新表

我正在尝试从数控机床中提取数据事件每毫秒发生一次我需要过滤掉一些用管道分隔的变量分隔符 PuTTy exe 程序生成的日志文件我尝试阅读熊猫但列不在同一位置 df pd read table data log sep 日志文件的一
如何使用 Pandas 将巨大的 CSV 转换为 SQLite？

我有一个巨大的表大约 60 GB 采用存档的 CSV 文件形式我想将其转换为 SQLite 文件我现在所做的事情如下 import pandas import sqlite3 cnx sqlite3 connect db sqlite
如何使用 Python 多处理避免在分叉进程中加载父模块

当您创建一个Pool使用Python的进程multiprocessing 这些进程将分叉父进程中的全局变量将显示在子进程中如下面的问题所述如何限制多处理进程的范围 https stackoverflow com questions 2
杂乱的扭曲连接在不干净的时尚中消失了。没有代理。已经尝试过标题

我正在尝试抓取这个网站 https www5 apply2jobs com jupitermed ProfExt index cfm fuseaction mExternal searchJobs https www5 apply2jobs
如何使用 PySpark 有效地将这么多 csv 文件（大约 130,000 个）合并到一个大型数据集中？

我之前发布了这个问题并得到了一些使用 PySpark 的建议如何有效地将这一大数据集合并到一个大数据框中 https stackoverflow com questions 60259271 how can i merge this la
求解不等式系统时“多项式错误：仅允许使用单变量多项式”

我想找到以下两个常数的区间cons1 and cons2我写了下面的代码 from sympy import Poly from sympy import Abs from sympy solvers inequalities import
如何在C++中列出Python模块的所有函数名称？

我有一个 C 程序我想导入一个 Python 模块并列出该模块中的所有函数名称我该怎么做我使用以下代码从模块中获取字典 PyDictObject pDict PyDictObject PyModule GetDict pModule
如何向 SCons 构建添加预处理和后处理操作？

我正在尝试在使用 SCons 构建项目时添加预处理和后处理操作 SConstruct 和 SConscript 文件位于项目的顶部预处理动作生成代码通过调用不同的工具 gt 不知道在此预处理之后将生成的确切文件可以创建用于决定生成哪
从另一个 python 脚本获取返回信息

我在 Linux 上我有一个 python 脚本我想从另一个 python 脚本调用它我不想将其作为模块导入为了一层安全性现在为了学术练习因为我想弄清楚这一点我实际上想让一个脚本使用 os system 或另一个类似的函数并
如何使用Featuretools按列值从单个数据框中的多个列创建特征？

我正在尝试根据之前的结果来预测足球比赛的结果我在 Windows 上运行 Python 3 6 并使用 Featuretools 0 4 1 假设我有以下代表结果历史记录的数据框原始数据框 https i stack imgur com
scipysolve_ivp() 中的访问时间步长

我有一个常微分方程系统正在使用 scipy 的solve ivp 函数求解它运行良好但我在访问每个步骤中使用的时间步时遇到问题我知道solve ivp 将当前时间传递给用户定义的函数但我需要使用的时间步长而不是当前时间为了解决
在Python中从日期时间中减去秒

我有一个 int 变量它实际上是秒让我们调用这个秒数X 我需要得到当前日期和时间以日期时间格式减去的结果X秒 Example If X是 65 当前日期是2014 06 03 15 45 00 那么我需要得到结果2014 06 03
Scala：如何获取数据框中的行范围

我有一个DataFrame通过运行创建sqlContext readParquet 文件的一个 The DataFrame由 300 M 行组成我需要使用这些行作为另一个函数的输入但我想以较小的批次进行操作以防止 OOM 错误目前

随机推荐

实现 47 度 android-swipelistview 用于滑动 android ListViewItem

实际上我的目标是在android中实现ListViewItem Swipe 我已经尝试过了 stackoverflow 有几个可以让你的 ListViewSwipe 的例子例子简单的滑动手势活动教程从列表视图中滑动一项时在列表视图中显
将程序加载到 RAM 并执行它们 NASM 16b

我迫切需要解决这个问题我正在尝试开发汇编代码允许我加载和执行通过用户的输入 2 个其他 Assembly EXE 程序我有两个问题我似乎无法将路径名分配给有效的寄存器或者可能是错误的语法我需要能够在第一个程序可能是开始执行
Python 对象删除自身

为什么这不起作用我正在尝试使类的实例删除自身 gt gt gt class A def kill self del self gt gt gt a A gt gt gt a kill gt gt gt a lt main A instan
SPA 中刷新令牌 Cookie 的 CSRF 保护

我在 AngularJS SPA 中使用资源所有者密码凭据 OAuth 2 0 流程有几篇文章 here here 以及答案这个问题这说明我们不应该将刷新令牌存储在 Web 客户端 LocalStorage 上而是将它们加密存储在 Ht
使用 android.telecom 和 InCallService 接听来电

自 API 21 以来 Google 一直在添加功能android 电信总体而言特别是通过实施更多成员电信经理并添加通话服务最后一个应该允许非系统第三方应用程序提供和替换系统呼叫应用程序通话中屏幕的功能弹出并允许执行操作的窗口EXT
Asm代码解释

以下 GCC 内联汇编取自 LuaJit 的 coco 库有人可以逐行解释它的作用吗 static inline void coco switch coco ctx from coco ctx to asm volatile movl 1
tesseract 安装 mac 操作系统

我正在尝试使用 homeBrew 在我的 mac 上安装 tesseract 当我尝试安装时一切似乎都很好但我收到以下错误消息 Warning Could not link leptonica Unlinking Error The
shell脚本测试

我正在尝试更新其他人编写的 bash 脚本但遇到了一行我不确定的内容谁能告诉我以下检查的作用 if RESULT 0 0 我假设它正在检查 RESULT 中的某些值可能带有子字符串任何帮助表示赞赏命令只是命令的别名test 右方
CORS 适用于对 API 的直接请求，但不适用于静态文件（如 css）

我们正在开发一个由 Android 组成的项目Mobile App连同一个Web API Web API 是 Asp net MVC Core 我已经启用了CORS服务于我的Startup cs 因此移动应用程序 API 调用可以跨源访问
迭代 std::deque 时擦除元素时出现分段错误

为什么下面的代码会崩溃当我通过反向迭代器进行迭代时应该做什么那么如何删除单个元素呢 deque q q push back 4 q push back 41 q push back 14 for auto it q begin it q
pandas - 两列的直方图？

我有这个数据 data pd DataFrame from dict r for r in response print data id total 0 213 1 1 194 3 2 205 156 现在如果我打电话 data hist
带有闪亮工具提示BS的反应式单选按钮

我想创建一个radioButtons带有工具提示的小部件使用shinyBS 我想要实现的是创建一个带有 3 个按钮的小部件其中包含不同的信息tooltip 基于此solution它创建了 3 个具有不同 id 值的独立单选按钮是否可以做
intptr_t 是 uintptr_t 的有符号对应项（反之亦然）吗？

我正在为 add signed MPL 类开发一些测试将类型转换为其签名的对应项它的定义如下 template
在python中将url保存为文件名

我有一个网址例如 http example com here there index html 现在我想将文件及其内容保存在目录中我希望文件名是 http example com here there index html 但我收到错误
检测字符串是否为数字的最优雅的方法？

有没有比这更好更优雅和或可能更快的方法 boolean isNumber false try Double valueOf myNumber isNumber true catch NumberFormatException e E
是否可以将类内类的实例设置为 null

是否可以将类内类的实例设置为 null 例如我可以做这样的事情吗 int main Create a new test object Test test new Test Delete that object This method sh
Grit的clone方法未定义？

我最近开始从事一个使用 git 进行存储并使用 ruby 作为前端的项目我的脚本的第一个版本使用 ruby git 虽然非常简单但还可以当我需要对我的提交和日志进行更具体的工作时建议我转向坚毅然而我在早期遇到了一个障碍 grit
如何在wkwebview中下载文件

有人请告诉我如何在 iOS wkwebview 中下载文件我创建了一个 iOS 网络视图应用程序在我加载的页面中它有几个下载选项但是当我单击下载时没有任何反应注意我不想创建额外的下载按钮 Since macOS 11 3 and
PHP json_encode 数组 0 键的问题

我在使用 json encode 从数组生成 json 编码字符串时遇到问题有问题的数组部分如下所示 RatingDistribution Array 11 elements 0 Array 1 element 0 String 3 ch
Pandas：根据其他行删除行

我有一个 pandas 数据框如下所示 qseqid sseqid qstart qend 2 1 125 345 4 1 150 320 3 2 150 450 6 2 25 300 8 2 50 500 我想根据以下条件删除基于其他行

Pandas：根据其他行删除行

Pandas：根据其他行删除行 的相关文章

随机推荐

热门标签

Pandas：根据其他行删除行的相关文章