分组数据框中日期范围重叠

2024-02-23

我如何知道两行的日期范围是否重叠？

输入数据框：

A	B	Start	End	Timestamp
A1	B1	2022-01-15	2022-02-15	2021-05-17
A1	B1	2021-07-15	2021-10-17	2021-05-17
A1	B1	2021-07-30	2021-10-02	2021-05-16
A1	B2	2022-01-01	2023-01-01	2021-05-17
A1	B2	2021-06-02	2021-06-04	2021-05-16
A2	B3	2021-05-10	2021-05-12	2021-05-17
A2	B3	2021-04-10	2021-06-12	2021-05-16
A2	B4	2021-06-02	2021-06-04	2021-05-17

我想知道如何识别同一组的两行（A 和 B）之间是否存在重叠。例如，在第 0、1 和 2 行中，它们属于同一组（A1 和 B1），但第 1 行和第 2 行之间仅存在重叠，因为它们共享日期范围的一部分，因此我想要的是保留该行如果存在重叠，则具有最高时间戳。但例如在第 3 行和第 4 行中，尽管它们属于同一组（A1 和 B2），因为它们的日期之间没有重叠，但我想保留这两个日期。怎么可能呢？

预期数据框：

A	B	Start	End	Timestamp
A1	B1	2022-01-15	2022-02-15	2021-05-17
A1	B1	2021-07-15	2021-10-17	2021-05-17
A1	B2	2022-01-01	2023-01-01	2021-05-17
A1	B2	2021-06-02	2021-06-04	2021-05-16
A2	B3	2021-05-10	2021-05-12	2021-05-17
A2	B4	2021-06-02	2021-06-04	2021-05-17

您可以使用：

如果日期尚未在日期时间中，则可以选择将日期转换为日期时间

df['Start'] = pd.to_datetime(df['Start'])
df['End'] = pd.to_datetime(df['End'])
df['Timestamp'] = pd.to_datetime(df['Timestamp'])

对值进行排序以方便连续行之间的日期比较

df = df.sort_values(['A', 'B', 'Start', 'End'])

设置同一组内的组号A and B对于不重叠的日期范围：通过比较Start排序行中的日期大于End上一行的日期（这将是非重叠的日期范围）。所有组编号均相对于同一组内A and B.

group = (df['Start'] >  df.groupby(['A', 'B'])['End'].shift()).groupby([df['A'], df['B']]).cumsum()

通过...分组A and B和重叠的组号（由新创建的group) 并获取最高索引Timestamp by idxmax(). Use .loc过滤此类行（具有最高Timestamp成组）保留。最后.sort_index()在排序之前恢复原始数据帧的顺序。

df.loc[df.groupby([df['A'], df['B'], group])['Timestamp'].idxmax()].sort_index()

Result:

    A   B      Start        End  Timestamp
0  A1  B1 2022-01-15 2022-02-15 2021-05-17
1  A1  B1 2021-07-15 2021-10-17 2021-05-17
3  A1  B2 2022-01-01 2023-01-01 2021-05-17
4  A1  B2 2021-06-02 2021-06-04 2021-05-16
5  A2  B3 2021-05-10 2021-05-12 2021-05-17
7  A2  B4 2021-06-02 2021-06-04 2021-05-17

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

分组数据框中日期范围重叠的相关文章

更改自动插入 tkinter 小部件的文本颜色

我有一个文本框小部件其中插入了三条消息一条是开始消息一条是结束消息一条是在单位被摧毁时发出警报的消息我希望开始和结束消息是黑色的但被毁坏的消息参见我在代码中评论的位置插入小部件时颜色为红色我不太确定如何去做这件事我看
如何使用 Scrapy 从网站获取所有纯文本？

我希望在 HTML 呈现后可以从网站上看到所有文本我正在使用 Scrapy 框架使用 Python 工作和xpath body text 我能够获取它但是带有 HTML 标签而且我只想要文本有什么解决办法吗最简单的选择是ext
Python tcl 未正确安装

我刚刚为 python 安装了graphics py 但是当我尝试运行以下代码时 from graphics import def main win GraphWin My Circle 100 100 c Circle Point 50
安装后 Anaconda 提示损坏

我刚刚安装张量流GPU创建单独的后环境按照以下指示here https github com antoniosehk keras tensorflow windows installation 但是安装后当我关闭提示窗口并打开新航站楼弹出
从 scikit-learn 导入 make_blobs [重复]

这个问题在这里已经有答案了我收到下一个警告 D Programming Python ML venv lib site packages sklearn utils deprecation py 77 DeprecationWarning
keras加载模型错误尝试将包含17层的权重文件加载到0层的模型中

我目前正在使用 keras 开发 vgg16 模型我用我的一些图层微调 vgg 模型拟合我的模型训练后我保存我的模型model save name h5 可以毫无问题地保存但是当我尝试使用以下命令重新加载模型时load mod
运行多个 scrapy 蜘蛛的正确方法

我只是尝试使用在同一进程中运行多个蜘蛛新的 scrapy 文档 http doc scrapy org en 1 0 topics practices html但我得到 AttributeError CrawlerProcess objec
在pyyaml中表示具有相同基类的不同类的实例

我有一些单元测试集希望将每个测试运行的结果存储为 YAML 文件以供进一步分析 YAML 格式的转储数据在几个方面满足我的需求但测试属于不同的套装结果有不同的父类这是我所拥有的示例 gt gt gt rz shorthand for
使用 OpenPyXL 迭代工作表和单元格，并使用包含的字符串更新单元格[重复]

这个问题在这里已经有答案了我想使用 OpenPyXL 来搜索工作簿但我遇到了一些问题希望有人可以帮助解决以下是一些障碍待办事项我的工作表和单元格数量未知我想搜索工作簿并将工作表名称放入数组中我想循环遍历每个数组项并搜索包含特
表达式中的 Python 'in' 关键字与 for 循环中的比较 [重复]

这个问题在这里已经有答案了我明白什么是in运算符在此代码中执行的操作 some list 1 2 3 4 5 print 2 in some list 我也明白i将采用此代码中列表的每个值 for i in 1 2 3 4 5 print
如何将 numpy.matrix 提高到非整数幂？

The 运算符为numpy matrix不支持非整数幂 gt gt gt m matrix 1 0 0 5 0 5 gt gt gt m 2 5 TypeError exponent must be an integer 我想要的是 oct
如何改变Python中特定打印字母的颜色？

我正在尝试做一个简短的测验并且想将错误答案显示为红色欢迎来到我的测验您想开始吗是的祝你好运法国的首都是哪里法国随机答案不正确的答案我正在尝试将其显示为红色我的代码是 print Welcome to my Quiz be
通过数据框与函数进行交互

如果我有这样的日期框架氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
为美国东部以外地区的 Cloudwatch 警报发送短信？

AWS 似乎没有为美国东部以外的 SNS 主题订阅者提供 SMS 作为协议我想连接我的 CloudWatch 警报并在发生故障时接收短信但无法将其发送到 SMS YES 经过一番挖掘后我能够让它发挥作用它比仅仅选择一个主题或输入闹钟
在Python中重置生成器对象

我有一个由多个yield 返回的生成器对象准备调用该生成器是相当耗时的操作这就是为什么我想多次重复使用生成器 y FunctionWithYield for x in y print x here must be something t
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
如何在 Kotlin 中验证输入字符串是否为有效日期？

So my Kotlin应用程序正在接受一个输入字符串该字符串应该是某种格式的日期 fun haveFun dateStr String var formatter DateTimeFormatter ofPattern dd MMM y
在 PostgreSQL 中使用月份名称排序

我有一个表其中有一个字段 Month Name 它包含月份的名称我想按月份名称排序不是按字母顺序而是按实际顺序例如一月二月等如何使用 PostgreSQL 实现此操作有什么方法可以将月份名称转换为其数值吗 id billed
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
PyAudio ErrNo 输入溢出 -9981

我遇到了与用户相同的错误 Python 使用 Pyaudio 以 16000Hz 录制音频时出错 https stackoverflow com questions 12994981 python error audio recording

随机推荐

MSSQL 链接服务器错误：链接服务器的 OLE DB 提供程序“OraOLEDB.Oracle”为列提供了不一致的元数据

我试图将数据从 Oracle 提取到MSSqlserver使用链接服务器的数据库 select from LINK NAME SCHEMA TABLE 但它失败并出现以下错误链接服务器 LINK NAME 的 OLE DB 提供程序 Or
我收到 AttributeError: 'HtmlResponse' object has no attribute 'xpath' in scrapy

我是 scrapy 的新手我正在使用Scrapy 0 14 4 我只想按照以下示例打印标题和链接这是我的蜘蛛 from scrapy spider import BaseSpider class XxxSpider BaseSpider
展开/折叠带有嵌套行的表行

我想创建一个具有以下结构的表行 1 数据列 1 数据列 2 数据列 2子行1 数据列1 数据列2 数据列2子行2 数据列1 数据列2 数据列2SubRow3 数据列1 数据列2 数据列2 我希望子行在单击时展开折叠我似乎无法让它与桌子
Mongodb 将重音字符匹配为基础字符

在 MongoDB db foo find 语法中我如何告诉它匹配所有字母及其重音版本例如如果我的数据库中有一个姓名列表 Jo o弗朗索瓦 Jes s 我如何允许搜索字符串 Joao Francois 或 Jesus 来匹配给定的名称
如何在AWS中创建新用户

我试图弄清楚如何使用适用于 Java 的 AWS API 创建新用户但我不知道我需要做什么到目前为止我设法编写了这段代码它为我提供了一个 CreateUserRequest 一个 CreateAccessKeyRequest 和一个
连接字符串中的允许用户变量 - SQL Server Express

我正在尝试在连接字符串中添加 AllowUserVariables true 以使用 C 访问 SQL Server Express 但一个Keyword not supported allowuservariables 抛出异常我该如何
在布局 xml 中使用 onClick 属性会导致 Android 对话框中出现 NoSuchMethodException

我创建了一个自定义对话框和一个布局 xml
ExpressJS / NodeJS 重定向图像

可以吗 img具有 src 值并重定向到另一个页面看来我有img img src images fileName 在app js中 app get images fileName subject image 这是我的路线 exports
apache httpclient 未设置基本身份验证凭据

看一下下面的代码 DefaultHttpClient http new DefaultHttpClient http getCredentialsProvider setCredentials new AuthScope AuthScope
列不允许 DBNull.Value - 禁止 KeepNulls - 正确的列映射

我正在使用 c 和 NET 4 5 2 推送到 SQL Server 2017 14 0 1000 169 在我的数据库中我有一个带有 DateAdded 字段的表其类型为DateTimeOffset 我正在尝试使用以下代码进行批量复制
C# 和 JavaScript 之间的时间跨度差异说明

这是基于在 C 中计算 1970 年以来的毫秒数会产生与 JavaScript 不同的日期 https stackoverflow com q 22081128 1346943 and Javascript Date getTime 的 C
简单游戏的 Canvas 与 SVG

如果我想构建一个简单的游戏贪吃蛇西洋跳棋吃豆人或其他游戏什么是更好的方法 SVG 还是 Canvas 我感兴趣的事情易于实施 Canvas 与 SVG 的学习曲线例如如果 SVG 的教程和社区支持明显减少这对我来说至关重要
从 jQuery 加载 symfony 2 目录中的 php 文件

我在捆绑包内的树枝文件中有这行代码 jQuery BundleDir Bundle views mapname index html twig datacount load getDataCount php 我的问题是我需要将 getDat
如何使用 jquery 操作查询字符串

我有一个选择下拉列表其中 id 映射到值在 onChange 事件中我想重定向到相同的 url 但将 id value 附加到查询字符串如何检查此 id 选项是否已存在于查询字符串中我不需要多个值并根据需要替换附加我如何检查
使用带有用户名和密码的 http 进行 Git 克隆

我尝试使用 git 克隆http 用户电子邮件受保护 http user password host com但我在添加用户或密码时遇到一些问题因为用户使用的电子邮件包含其他而密码使用感叹号该命令看起来像http 电子邮件受保护电子
PharData extractTo方法在linux环境下提取.tar.gz失败

我想将 tar gz 文件提取到特定文件夹中我使用 cURL 从 MailChimp 批量操作下载 tar gz 文件我使用下面的代码来提取 tar 文件 phar new PharData upload test tar gz pha
如果调用者返回太早，则异步 AWS Lambda 不会执行

我正在尝试调用异步 lambda 函数within另一个 lambda 函数我发现如果调用函数退出得太快它就不会被执行换句话说以下内容永远不会起作用 LambdaFunction2 永远不会被调用 function lambdaFu
在 OpenCV 中更新 Mat 的子矩阵

我正在使用 OpenCV 和 C 我有一个像这样的矩阵 X Mat X Mat zeros 13 6 CV 32FC1 我只想更新它的一个 4x3 子矩阵但我对如何有效地访问该矩阵存有疑问 Mat mat43 Mat eye 4 3 CV
恢复备份mysql

我在 mysql 中有一个 250MB 的数据库备份如何将其恢复到另一台服务器上的新数据库中或者只是使用php我的管理员为了恢复海豚
分组数据框中日期范围重叠

我如何知道两行的日期范围是否重叠输入数据框 A B Start End Timestamp A1 B1 2022 01 15 2022 02 15 2021 05 17 A1 B1 2021 07 15 2021 10 17 2021 0

分组数据框中日期范围重叠

分组数据框中日期范围重叠 的相关文章

随机推荐

热门标签

分组数据框中日期范围重叠的相关文章