从时间戳在指定范围或持续时间内的 pandas DataFrame 中删除重复行

2024-01-28

我有一个像这样的数据框：

Subject Verb    Object  Date
---------------------------------
Bill    Ate     Food    7/11/2015
Steve   Painted House   8/12/2011
Bill    Ate     Food    7/13/2015
Steve   Painted House   8/25/2011

我想删除所有重复项，其中重复项定义为具有相同的主语、动词、宾语和落在 X 天范围内（在我的示例中：5 天）。

Subject Verb    Object  Date
---------------------------------
Bill    Ate     Food    7/11/2015
Steve   Painted House   8/12/2011
Steve   Painted House   8/25/2011

“Steve - Painted - House”的两个实例都不会被删除，因为它们超出了 5 天的窗口范围。

我知道我可以使用一些数据结构和 DataFrame 的 iterrows 方法来做到这一点，但是有没有办法使用 Pandas drop_duplicates 来做到这一点？

Use duplicated + diff和这个结合groupby找出要删除的行。

c = ['Subject', 'Verb', 'Object']

def f(x):
    return x[c].duplicated() & x.Date.diff().dt.days.lt(5)

df = df.sort_values(c)
df[~df.groupby(c).apply(f).values]

  Subject     Verb Object       Date
0    Bill      Ate   Food 2015-07-11
1   Steve  Painted  House 2011-08-12
3   Steve  Painted  House 2011-08-25

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

duplicates

从时间戳在指定范围或持续时间内的 pandas DataFrame 中删除重复行的相关文章

将 Matplotlib 误差线放置在不位于条形中心的位置

我正在 Matplotlib 中生成带有错误栏的堆积条形图不幸的是某些层相对较小且数据多样因此多个层的错误条可能重叠从而使它们难以或无法读取 Example 有没有办法设置每个误差条的位置即沿 x 轴移动它以便重叠的线显示在彼此
如何在flask中使用g.user全局

据我了解 Flask 中的 g 变量它应该为我提供一个全局位置来存储数据例如登录后保存当前用户它是否正确我希望我的导航在登录后在整个网站上显示我的用户名我的观点包含 from Flask import g among other
Python（Selenium）：如何通过登录重定向/组织登录登录网站

我不是专业程序员所以请原谅任何愚蠢的错误我正在做一些研究我正在尝试使用 Selenium 登录数据库来搜索大约 1000 个术语我有两个问题 1 重定向到组织登录页面后如何使用 Selenium 登录 2 如何检索数据库在我解决
绘制随时间变化的分类数据计数

我有一个数据框 df 其中有一列包含分类数据 ETH 带有 DateTimeIndex 我想绘制类别counts随着时间的推移它们按天索引我最好按年绘制它们 df pd DataFrame County 0 Bexar 3 Nueces
python 相当于 R 中的 get() （= 使用字符串检索符号的值）

在 R 中 get s 函数检索名称存储在字符变量向量中的符号的值s e g X lt 10 r lt XVI s lt substr r 1 1 X get s 10 取罗马数字的第一个符号r并将其转换为其等效整数尽管花了一些时间翻
是否可以忽略一行的pyright检查？

我需要忽略一行的pyright 检查有什么特别的评论吗 def create slog group SLogGroup data Optional dict None SLog insert one SLog group group da
基于代理的模拟：性能问题：Python vs NetLogo & Repast

我正在 Python 3 中复制一小段 Sugarscape 代理模拟模型我发现我的代码的性能比 NetLogo 慢约 3 倍这可能是我的代码的问题还是Python的固有限制显然这只是代码的一个片段但 Python 却花费了三分
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
OpenCV 无法从 MacBook Pro iSight 捕获

几天后我无法再从 opencv 应用程序内部打开我的 iSight 相机 cap cv2 VideoCapture 0 返回并且cap isOpened 回报true 然而 cap grab 刚刚返回false 有任何想法吗示例代码
Python 函数可以从作用域之外赋予新属性吗？

我不知道你可以这样做 def tom print tom s locals locals def dick z print z name z name z guest Harry print z guest z guest print di
如何加速Python中的N维区间树？

考虑以下问题给定一组n间隔和一组m浮点数对于每个浮点数确定包含该浮点数的区间子集这个问题已经通过构建一个解决区间树 https en wikipedia org wiki Interval tree 或称为范围树或线段树已经针对一
BeautifulSoup 中的嵌套标签 - Python

我在网站和 stackoverflow 上查看了许多示例但找不到解决我的问题的通用解决方案我正在处理一个非常混乱的网站我想抓取一些数据标记看起来像这样 table tbody tr tr tr td td td table tr t
添加不同形状的 numpy 数组

我想添加两个不同形状的 numpy 数组但不进行广播而是将缺失值视为零可能最简单的例子是 1 2 3 2 gt 3 2 3 or 1 2 3 2 1 gt 3 2 3 1 0 0 我事先不知道形状我正在弄乱每个 np shape
在Python中获取文件描述符的位置

比如说我有一个原始数字文件描述符我需要根据它获取文件中的当前位置 import os psutil some code that works with file lp lib open path to file p psutil Pro
如何使用Python创建历史时间线

So I ve seen a few answers on here that helped a bit but my dataset is larger than the ones that have been answered prev
IO 密集型任务中的 Python 多线程

建议仅在 IO 密集型任务中使用 Python 多线程因为 Python 有一个全局解释器锁 GIL 只允许一个线程持有 Python 解释器的控制权然而多线程对于 IO 密集型操作有意义吗 https stackoverflow c
为字典中的一个键附加多个值[重复]

这个问题在这里已经有答案了我是 python 新手我有每年的年份和值列表我想要做的是检查字典中是否已存在该年份如果存在则将该值附加到特定键的值列表中例如我有一个年份列表并且每年都有一个值 2010 2 2009 4 1989
Python：如何将列表列表的元素转换为无向图？

我有一个程序可以检索 PubMed 出版物列表并希望构建一个共同作者图这意味着对于每篇文章我想将每个作者如果尚未存在添加为顶点并添加无向边或增加每个合著者之间的权重我设法编写了第一个程序该程序检索每个出版物的作者列表并
Rocket UniData/UniVerse：ODBC 无法分配足够的内存

每当我尝试使用pyodbc连接到 Rocket UniData UniVerse 数据时我不断遇到错误 pyodbc Error 00000 00000 Rocket U2 U2ODBC 0302810 Unable to allocate
NotImplementedError：无法将符号张量 (lstm_2/strided_slice:0) 转换为 numpy 数组。时间

张量流版本 2 3 1 numpy 版本 1 20 在代码下面 define model model Sequential model add LSTM 50 activation relu input shape n steps n fe

随机推荐

即使在 ssh-agent 启动后，“无法打开与您的身份验证代理的连接”，ssh-add 错误

我需要添加多个 ssh 密钥所以我需要执行ssh add 但我得到的错误Could not open a connection to your authentication agent 我读了很多帖子比如无法打开与您的身份验证代理的连接
android：在新终端窗口中找不到命令

在我安装了android环境并将路径放入这个问题中后我遇到了一个奇怪的问题link https stackoverflow com questions 10969753 android command not found 我写命令 and
Common Lisp 类型与类的区别

在帖子中Common Lisp 类层次结构 https stackoverflow com questions 42514204 common lisp class hierarchy Rainer Joswig 和 Joshua Tayl
使用 Anko 从 Activity 访问视图

我知道我可以使用id使用 Anko 属性来标识视图 class MainActivityUI AnkoComponent
从 MongoDB“集合”中获取所有“文档”

我需要检索 MongoDB 中我的集合中的所有文档但我不知道如何操作我已经这样宣布我的收藏了 private static IMongoCollection
使用facet_wrap更改ggplot中的y限制以混合对数和常规比例

我有一个数据集其中一组的值范围很广使用 ggplot 的facet wrap 我将以对数刻度绘制一组具有最宽值范围的组的 y 轴和另一组的常规轴下面是一个可重现的示例 set seed 123 FiveLetters lt LET
Android：使用 Kotlin 时进度条不能为 null

我正在解雇一个进度条在我的应用程序中进行 webService 调用后但它因这个异常而崩溃 IllegalStateException search progress bar must not be null 我正在使用科特林这是我的布
复制简单结构时 memcpy 和 '=' 之间的区别[重复]

这个问题在这里已经有答案了考虑复制一个不需要特殊复制语义的简单结构 struct A char i int i long l double b maybe more member struct A a a c a skip other m
在 Mercurial 中，我如何查看过去 24 小时内推送到存储库的修订？

我有一个 Mercurial 存储库几个人从他们自己的本地存储库推送到该存储库我希望能够查询这个中央存储库以获取所有更改到达该存储库在过去 24 小时内特别是not just的变化是坚定的在过去 24 小时内 The hg 日志日期
在 PowerShell 中共享文件夹并设置权限

我需要一个在 Vista Ultimate 上运行的脚本来共享外部驱动器并将完全控制权分配给每个人我有一个批处理文件来创建共享net share 但似乎没有办法更改权限我认为这在 PowerShell 中一定是可能的但我不知道从哪里开
如何在C#中使用EPPLUS的一个对象多次写入excel

参考一些EPPLUS示例代码只为一项活动创建一个epplus对象 ex using ExcelPackage package new ExcelPackage newFile activity 这意味着活动完成后对象将被自动处理接下来
尝试为 GreenDAO 运行 DaoGenerator 时出现 NoClassDefFoundError

我有一个 Android 项目使用 Android Studio 2 3 它使用 GreenDAO 生成与 SQLite 数据库交互的类 DaoGenerator 项目以前一直有效但今天我只需要向实体添加 2 列属性每当我尝试运行生
在u-boot中，kernel_entry指向哪个函数？

这是 u boot 的函数 static void boot jump linux bootm headers t images int flag ifdef CONFIG ARM64 void kernel entry void fdt
使用 virtualenv pip 安装 Matplotlib 错误

我正在尝试在新的 virtualenv 中安装 matplotlib 当我做 pip install matplotlib or pip install http sourceforge net projects matplotlib fi
Firebase 消息传递无法在现代 Android 即时应用程序中运行 - DisplayNotificationRequired？

我已经阅读了所有相关的 SO 问题其中大部分是在 2017 年或 2018 年初回答的当时 Google 简化了即时应用程序的创建方式就我而言我创建了一个即时启用的应用程序包此处描述 https developer androi
使用 lambda getter 和 setter 创建属性

我有这样的事情 class X def init self self name None def process value self value do something pass def get name self return sel
使用纯 JavaScript 设置样式[重复]

这个问题在这里已经有答案了我想在没有 jQuery 的情况下设置正文的背景 Jquery代码 body css background red 为什么下面的代码在纯 JavaScript 中不起作用 document getElements
自定义词汇上的 Sklearn Countvectorizer

我有一组网页我正在获取网页计数矩阵我尝试使用标准计数向量化器 https scikit learn org stable modules generated sklearn feature extraction text CountVe
Tkinter：最大化 matplotlib GUI 窗口

所以看来 matplotlib gui 绘制了 a laplt show 不适应显示器分辨率并且在高分辨率屏幕上显得很小是否有 matplotlib tkinter 修复或者我是否在 Windows 设置中的某个地方进行了修改 Tha
从时间戳在指定范围或持续时间内的 pandas DataFrame 中删除重复行

我有一个像这样的数据框 Subject Verb Object Date Bill Ate Food 7 11 2015 Steve Painted House 8 12 2011 Bill Ate Food 7 13 2015 Steve

从时间戳在指定范围或持续时间内的 pandas DataFrame 中删除重复行

从时间戳在指定范围或持续时间内的 pandas DataFrame 中删除重复行 的相关文章

随机推荐

热门标签

从时间戳在指定范围或持续时间内的 pandas DataFrame 中删除重复行的相关文章