Pandas：通过时间间隔的另一个数据帧过滤数据帧

2023-12-06

如果我有一个数据框（df_data），例如：

ID        Time                X        Y        Z        H
05  2020-06-26 14:13:16    0.055    0.047    0.039    0.062
05  2020-06-26 14:13:21    0.063    0.063    0.055    0.079
05  2020-06-26 14:13:26    0.063    0.063    0.063    0.079
05  2020-06-26 14:13:31    0.095    0.102    0.079    0.127
...    ..    ...     ...     ...      ...      ...      ...
01  2020-07-01 08:59:43    0.063    0.063    0.047    0.079
01  2020-07-01 08:59:48    0.055    0.055    0.055    0.079
01  2020-07-01 08:59:53    0.071    0.063    0.055    0.082
01  2020-07-01 08:59:58    0.063    0.063    0.047    0.082
01  2020-07-01 08:59:59    0.047    0.047    0.047    0.071

[17308709 rows x 8 columns]

我想通过另一个间隔数据帧（df_intervals）进行过滤，例如：

int_id         start               end
1            2020-02-03 18:11:59   2020-02-03 18:42:00
2            2020-02-03 19:36:59   2020-02-03 20:06:59
3            2020-02-03 21:00:59   2020-02-03 21:31:00
4            2020-02-03 22:38:00   2020-02-03 23:08:00
5            2020-02-04 05:55:00   2020-02-04 06:24:59
...                         ...                   ...
1804         2021-01-10 13:50:00   2021-01-10 14:20:00
1805         2021-01-10 18:10:00   2021-01-10 18:40:00
1806         2021-01-10 19:40:00   2021-01-10 20:10:00
1807         2021-01-10 21:25:00   2021-01-10 21:55:00
1808         2021-01-10 22:53:00   2021-01-10 23:23:00

[1808 rows x 2 columns]

最有效的方法是什么？我有一个很大的数据集，如果我尝试像这样迭代它：

for i in range(len(intervals)):
    df_filtered = df[df['Time'].between(intervals['start'][i], intervals['end'][i])
    ...
    ...
    ...

这需要永远！我知道我不应该迭代大型数据帧，但我不知道如何按第二个数据帧上的每个间隔对其进行过滤。

我尝试执行的步骤是：

1-从 df_intervals 获取所有间隔（开始/结束列）；

2- 使用这些时间间隔创建一个新的数据帧 (df_stats)，其中包含这些时间范围内列的统计信息。例子：

      start                  end             ID    X_max    X_min    X_mean    Y_max    Y_min    Y_mean    ....
2020-02-03 18:11:59   2020-02-03 18:42:00    01    ...    ...    ...     ...   ...    ...    ...     ...
2020-02-03 18:11:59   2020-02-03 18:42:00    02    ...    ...    ...     ...   ...    ...    ...     ...
2020-02-03 18:11:59   2020-02-03 18:42:00    03    ...    ...    ...     ...   ...    ...    ...     ...
2020-02-03 18:11:59   2020-02-03 18:42:00    04    ...    ...    ...     ...   ...    ...    ...     ...
2020-02-03 18:11:59   2020-02-03 18:42:00    05    ...    ...    ...     ...   ...    ...    ...     ...
2020-02-03 19:36:59   2020-02-03 20:06:59    01    ...    ...    ...     ...   ...    ...    ...     ...
2020-02-03 19:36:59   2020-02-03 20:06:59    02    ...    ...    ...     ...   ...    ...    ...     ...
2020-02-03 19:36:59   2020-02-03 20:06:59    03    ...    ...    ...     ...   ...    ...    ...     ...

如果乔的答案没有给你你想要的速度，我认为可以通过消除 for 循环中的统计计算来改进。（我正在窃取他的 df 创建，因为他是将其放入答案中的英雄。）理想情况下，您也可以摆脱 for 循环，但我认为随着时间戳索引被重复（跨 ID 号），它可以合并这两个数据框很棘手。

这是我仍然使用迭代来处理开始/结束时间的尝试。首先，我将 int_id 应用于父 df。我想将其添加到父数据帧中，这样我就可以进行“分组”，而无需创建“临时”数据帧并对其进行统计。

for index, row in df2.iterrows():
    
    df1.loc[df1.Time.between(row.start,row.end), 'int_id'] = row.int_id

    ID                Time      X      Y      Z      H  int_id
0   01 2020-02-03 18:13:16  0.011  0.012  0.013  0.014     1.0
1   01 2020-02-03 18:13:21  0.015  0.016  0.017  0.018     1.0
2   01 2020-02-03 18:13:26  0.013  0.013  0.013  0.013     1.0
3   01 2020-02-03 18:13:31  0.015  0.015  0.015  0.015     1.0
4   02 2020-02-03 18:13:16  0.021  0.022  0.023  0.024     1.0
5   02 2020-02-03 18:13:21  0.025  0.026  0.027  0.028     1.0
6   02 2020-02-03 18:13:26  0.023  0.023  0.023  0.023     1.0

然后，我定义聚合，以便在循环完成后一次性获取所有内容。

aggs = {'X':['sum', 'max', 'mean', 'median'], 
        'Y':['sum', 'max', 'mean', 'median'], 
        'Z':['sum', 'max', 'mean', 'median'], 
        'H':['sum', 'max', 'mean', 'median']}

df2 = df1.groupby(by=('int_id')).agg(aggs)

            X                            Y                             Z                            H                        
          sum    max    mean median    sum    max     mean median    sum    max    mean median    sum    max     mean  median
int_id                                                                                                                       
1.0     0.732  0.095  0.0366  0.034  0.739  0.102  0.03695  0.034  0.708  0.079  0.0354  0.034  0.827  0.127  0.04135  0.0345
2.0     0.732  0.095  0.0366  0.034  0.739  0.102  0.03695  0.034  0.708  0.079  0.0354  0.034  0.827  0.127  0.04135  0.0345

注意：这里你在列上有一个多重索引。您可以通过以下方式加入他们。

df_final.columns = ['_'.join(col).strip() for col in df_final.columns.values]

        X_sum  X_max  X_mean  X_median  Y_sum  Y_max   Y_mean  Y_median  Z_sum  Z_max  Z_mean  Z_median  H_sum  H_max   H_mean  H_median
int_id                                                                                                                                  
1.0     0.732  0.095  0.0366     0.034  0.739  0.102  0.03695     0.034  0.708  0.079  0.0354     0.034  0.827  0.127  0.04135    0.0345
2.0     0.732  0.095  0.0366     0.034  0.739  0.102  0.03695     0.034  0.708  0.079  0.0354     0.034  0.827  0.127  0.04135    0.0345

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

time

filter

Pandas：通过时间间隔的另一个数据帧过滤数据帧的相关文章

如何用函数记录一个文件？

我有一个带有函数 lib py 但没有类的python 文件每个函数都有以下样式 def fnc1 a b c This fonction does something param a lalala type a str param b
Python speedtest.net，或等效的[关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案是否有一个 Python 库可以实现 SpeedTest net 测试或等效的互联网连接速度测试 GitHub上有一个项目叫速度检查 https gi
如何找到多个 pandas 数据框中一对列与任意顺序对的交集？

我有多个 pandas 数据框为了简单起见假设我有三个 gt gt df1 col1 col2 id1 A B id2 C D id3 B A id4 E F gt gt df2 col1 col2 id1 B A id2 D C id
为什么需要设置WORKON_HOME环境变量？

我已经有一段时间没有使用 python 虚拟环境了但我也安装了虚拟环境包装器我的问题是在文档页面中它说要这样做 export WORKON HOME Envs mkdir p WORKON HOME source usr local
获取 Keras model.summary() 作为表

我在 Keras 中创建了相当大的模型我正在用 LaTeX 写一篇关于它的文章为了很好地描述 LaTeX 中的 keras 模型我想用它创建一个 LaTeX 表我可以手动实现它但我想知道是否有任何更好的方法来实现这一点我四处
如何知道python运行脚本的路径？

sys arg 0 给我 python 脚本例如 python hello py 返回 sys arg 0 的 hello py 但我需要知道 hello py 位于完整路径中的位置我怎样才能用Python做到这一点 os path a
列表推导式和 for 循环中的 Lambda 表达式[重复]

这个问题在这里已经有答案了我想要一个 lambda 列表作为一些繁重计算的缓存并注意到这一点 gt gt gt j for j in lambda i for i in range 10 9 9 9 9 9 9 9 9 9 9 Alt
我可以用关闭的文件对象做什么？

当您打开文件时它存储在一个打开的文件对象中该对象使您可以访问该文件的各种方法例如读取或写入 gt gt gt f open file0 gt gt gt f
无法通过 Android 应用程序访问我的笔记本电脑的本地主机

因此我在发布此内容之前做了一项研究我发现的解决方案不起作用更准确地说连接到我的笔记本电脑的 IPv4192 168 XXX XXX 没用连接到10 0 2 2 加上端口不起作用我需要测试使用 Django Rest 框架构建的
使用 python 脚本更改 shell 中的工作目录

我想实现一个用户态命令它将采用其参数之一路径并将目录更改为该目录程序完成后我希望 shell 位于该目录中所以我想实施cd命令但需要外部程序可以在 python 脚本中完成还是我必须编写 bash 包装器 Example t
Snakemake：将多个输入用于具有多个子组的一个输出的规则

我有一个工作管道用于下载比对和对公共测序数据执行变体调用问题是它目前只能在每个样本的基础上工作 i e作为每个单独测序实验的样本如果我想对一组实验例如样本的生物和或技术复制执行变体调用则它不起作用我试图解决它但我无法让它
哪种方式最适合Python工厂注册？

这是一个关于这些方法中哪一种被认为是最有效的问题 Pythonic 我不是在寻找个人意见而是在寻找惯用的观点我的背景不是Python 所以这会对我有帮助我正在开发一个可扩展的 Python 3 项目这个想法类似于工厂模式只不过它是
如何创建增量加载网页

我正在编写一个处理大量数据的页面它会永远持续到我的结果页面加载几乎无限因为返回的数据太大了因此我需要实现一个增量加载页面例如 url 中的页面 http docs python org http docs python org
如何在引发异常时将变量传递给异常并在异常时检索它？

现在我只有一个空白的异常类我想知道如何在引发变量时给它一个变量然后在 try except 中处理它时检索该变量 class ExampleException Exception pass 为其构造函数提供一个参数将其存储为属性然后
为什么从 openAI 导入 Universe 模块时出现“无效语法”错误

当我导入时universe来自 openAI 的模块我收到以下错误 Traceback most recent call last File
SQLAlchemy 与 count、group_by 和 order_by 使用 ORM

我有几个函数需要使用 count group by 和 order by 进行一对多连接我使用 sqlalchemy select 函数生成一个查询该查询将返回一组 id 然后我对其进行迭代以对各个记录执行 ORM 选择我想知道是否有
R 编程：如何计算数据框中两个单元格之间的差异并将它们保存在新列中

尝试学习 R 并陷入自相关示例中我想将 x 的差异与 y 的差异进行回归我在数据框中有 x 和 y 并且希望将 x2 x1 的差值保存在新列例如 dx 中我不知道该怎么做我拥有的 data1 x y 5 3 8 9 3 1 1 5
PyQt5按钮lambda变量变成布尔值[重复]

这个问题在这里已经有答案了当我运行下面的代码时它显示如下为什么 x 不是 x 而是变成布尔值这种情况仅发生在传递到用 lambda 调用的函数中的第一个参数上错误的 y home me model some file from P
Chrome 驱动程序和 Chromium 二进制文件无法在 aws lambda 上运行

我陷入了一个问题我需要在 AWS lambda 上做一些抓取工作所以我按照下面提到的博客及其代码库作为起点这非常有帮助并且在运行时环境 Python 3 6 的 AWS lambda 上对我来说工作得很好 https manivan
从 Django 运行 shell 命令

我正在 Django 中开发一个网页使用 apache 服务器需要调用 shell 命令来启用禁用一些守护进程我尝试这样做 os system service httpd restart 1 gt HOME out 2 gt HOM

随机推荐

了解 Dean Edwards 的 addevent JavaScript

我需要帮助理解这段代码重点是什么handler guid 为什么需要哈希表重点是什么 if element on type handlers 0 element on type 文中的这个指的是什么handleEvent 元素还是a
在 PHP 中分割文本文件

如何使用 PHP 按字符数将大型文本文件拆分为单独的文件因此一个 10 000 个字符的文件每 1000 个字符就会被拆分为 10 个文件此外只有在找到句号后才可以拆分吗 Thanks 更新 1 我喜欢 zombats 代码我删除
单元测试适配器抛出异常：不支持 URI 格式

在 Visual Studio 2010 中当我使用以下基本代码创建默认测试项目时
让 PowerShell 等待 Excel 完成刷新数据透视表

所以我开发了一个Powershell脚本来刷新大约40个大的excel文件并保存它们在这个脚本中我运行一个excel宏来传递excel ODBC 连接参数然后在刷新完成后从excel文件中删除它们我唯一的问题是对于这 40 个文件中
qmake 和多个 MSVS 版本

From Visual Studio 2008 Command Prompt我运行这个命令来生成 vcproj file gt qmake spec win32 msvc2008 并收到警告消息 WARNING Generator MSVC
LINQ连接多表

我有4张桌子 table1 id1 fk tbl2 this is the foreign key to the id in table2 table2 id2 fk tbl3 this is the foreign key to the
如何让gganimate中的点出现而不是过渡

我正在使用 gganimate 假设我有这个 MWE library ggplot2 library gganimate ggplot airquality aes Day Temp geom point color red size 1
有没有办法以编程方式检测用户何时在浏览器中按下 F5 按钮？

我有一个缓存每当用户在浏览器中发出 F5 请求时我都希望该缓存失效我正在运行 JSF 2 0 应用程序有没有办法做到这一点 Use the FacesContext getCurrentInstance isPostBack 检查页
解析 YAML 文件

这是我第一次使用 YAML 文件所以我首先想到的是找到任何可以帮助我解析文件的库我找到了两个库 YamlBean 和 SnakeYAML 我不确定我要使用哪一个这是我尝试解析的文件的示例 users user1 groups Prem
AppEngine Memcache 过期策略

我期待以下 AppEngine 代码 MemcacheService memcache MemcacheServiceFactory getMemcacheService memcache put Foo Bar Expiration on
PHP中删除一行记录

我试图删除数据库中的一条记录所以基本上我创建了一个包含我所有记录的表现在我需要做的是当我单击删除链接时它将删除记录选定的行它看起来是这样的所以基本上我这里有 3 页 1 页面 php2 添加 php3 删除 php 这是我的
Waitpid 相当于超时吗？

想象一下我有一个启动多个子进程的进程父母需要知道孩子何时退出我可以用waitpid 但是如果当父级需要退出时我无法告诉被阻塞的线程waitpid优雅地退出并加入它让事情自行清理固然很好但这可能没什么大不了的我可以用waitpi
Visual Studio Code 无法从 Powershell 打开

我正在尝试使用 Powershell 打开 Visual Studio Codecode在文件夹内时执行命令当我尝试这样做时我总是收到此错误块引用代码术语代码不被识别为 cmdlet 函数脚本文件或可操作程序的名称检查名称的
ASP.net MVC - 模型绑定排除类字段？

在最近的一个项目中我遇到了意想不到的障碍具有简单公共字段注意不是属性的类似乎不想与 ASP net MVC 3 0 模型绑定器这是设计使然吗除了将字段更改为属性之外这里还有其他选项吗 update 使用简单字段而不是属性的
JavaScript - SetInterval 无法正常工作

我得到了这段脚本在本地运行但似乎 setInterval 不起作用发送表单功能不起作用任何帮助将不胜感激 Thanks 你需要打电话setInterval 函数中不带括号如下所示 setI
如何禁用音频播放器 HTML5 中的特定控件

我只想显示音频控件但禁止用户拖动按钮因为我不希望用户跳过歌曲如何使这项工作有效你不能您要么显示浏览器的内置控件要么不显示所以你应该隐藏它们并制作你自己的如果你不想要搜索功能这应该很容易或者看看像 jPlayer http
如何检查来自 json 的值是否为 null？

我想检查 json 的结果是否为空我使用了这段代码 NSString likesCount if facebook valueForKey likes NSNull null return else return facebook val
为什么我的网站不显示我的网站图标？

我有一个刚刚上传到互联网的网站当我在 Ubuntu 上使用 Firefox 3 0 1 浏览该网站时我看不到图标 WinXP 上的 Firefox 3 0 1 确实会显示它 WhyUbuntu下不显示favicon吗它是根目录中的 f
iOS 13：使用新的 NEHotspotConfiguration.init(ssidPrefix: String) 似乎不起作用

我目前正在运行 Xcode 11 0 和 iOS 13 1 测试版我正在尝试 iOS 13 中新添加的功能能够连接到仅已知前缀的 Wifi 热点苹果文档这非常适合无头配件的 Wifi 设置因为您无需要求用户切换到操作系统设置即可连
Pandas：通过时间间隔的另一个数据帧过滤数据帧

如果我有一个数据框 df data 例如 ID Time X Y Z H 05 2020 06 26 14 13 16 0 055 0 047 0 039 0 062 05 2020 06 26 14 13 21 0 063 0 063 0

Pandas：通过时间间隔的另一个数据帧过滤数据帧

Pandas：通过时间间隔的另一个数据帧过滤数据帧 的相关文章

随机推荐

热门标签

Pandas：通过时间间隔的另一个数据帧过滤数据帧的相关文章