Pandas：参差不齐的时间序列的时间加权滚动平均值

2024-05-27

我有一个参差不齐（意思是不规则的频率）、时间索引的 DataFrame，我想对其执行时间加权滚动平均值，以维护 DataFrame 的原始索引。假设记录的值在被另一个值取代之前一直有效。实现此目的的一种方法是将参差不齐的 DataFrame 上采样到统一频率，然后进行滚动平均值：

import pandas as pd
import numpy as np


def time_weighted_average_using_upsampling(df: pd.DataFrame, avg_window: str) -> pd.DataFrame:
    # Leads to high memory usage
    original_index = df.index.copy()
    avg = (
        df.resample("1s")
        .ffill()
        .rolling(avg_window, closed="left", min_periods=int(avg_window[0])))
        .mean()
        .reindex(original_index)
    )
    return avg


if __name__ == "__main__":
    df = pd.DataFrame(
        {"A": [0, 1, 2, 3, 4, 5]},
        index=[
            pd.Timestamp("20130101 09:00:00"),
            pd.Timestamp("20130101 09:00:02"),
            pd.Timestamp("20130101 09:00:03"),
            pd.Timestamp("20130101 09:00:05"),
            pd.Timestamp("20130101 09:00:06"),
            pd.Timestamp("20130101 09:00:10"),
        ],
    )

    expected_avg = pd.DataFrame(
        {"A": [np.nan, np.nan, 1 / 3, 5 / 3, 7 / 3, 4]},
        index=[
            pd.Timestamp("20130101 09:00:00"),
            pd.Timestamp("20130101 09:00:02"),
            pd.Timestamp("20130101 09:00:03"),
            pd.Timestamp("20130101 09:00:05"),
            pd.Timestamp("20130101 09:00:06"),
            pd.Timestamp("20130101 09:00:10"),
        ],
    )

    pd.testing.assert_frame_equal(
        time_weighted_average_using_upsampling(df=df, avg_window="3s"), expected_avg
    )

问题在于，上采样违背了不规则 df 提供的稀疏表示的目的。稀疏表示具有内存效率，而上采样版本则不然。这就引出了一个问题：如何实现上面所示的结果without必须对整个 df 进行上采样吗？

这是一种替代方法，您可以首先检查两行之间的时间差异大于间隙的位置，而不是对整个数据帧进行上采样。然后删除 3s 到有间隙的行，reindexdf 与这些特定的新时间戳的并集。创建这些行后，您可以groupby使用添加新索引的位置，resample每组1秒，最后rolling用你做的方法。Reindex末尾带有 df 。

rule = 3
rolling_win = f'{rule}s'

sparse = df.index.to_series().diff().dt.total_seconds().ge(rule)
new_timestamps = df.index[sparse] - pd.Timedelta(seconds=rule)
print(new_timestamps) 
#DatetimeIndex(['2013-01-01 09:00:07'], dtype='datetime64[ns]', freq=None)

#reindex with the new 
df_ = df.reindex(df.index.union(new_timestamps))

#perform first the resample 1s per group, then clean the dataframe to do the rolling.mean
#finally reindex like original df
df_ = (df_.groupby(df_.index.isin(new_timestamps).cumsum())
          .resample("1s").ffill()
          .reset_index(level=0, drop=True).ffill()
          .rolling(rolling_win, closed="left", min_periods=rule)\
          .mean()
          .reindex(df.index)
      )
print(df_)
                            A
2013-01-01 09:00:00       NaN
2013-01-01 09:00:02       NaN
2013-01-01 09:00:03  0.333333
2013-01-01 09:00:05  1.666667
2013-01-01 09:00:06  2.333333
2013-01-01 09:00:10  4.000000

在这种情况下，它并不是很有趣，因为间隙实际上很小，但如果间隙很大，那么它就会变得有用。

编辑或其他选择，可能更好，union所有由您删除 1、2、3、...（取决于规则）的原始索引组成的索引。现在你只有滚动所需的索引，所以reindex, ffill and rolling.mean。最后结果相同

from functools import reduce

rule = 3
rolling_win = f'{rule}s'

idx = df.index
df_ = (df.reindex(reduce(lambda x, y: x.union(y), 
                         [idx - pd.Timedelta(seconds=i) 
                          for i in range(0, rule+1)]))
         .ffill()
         .rolling(rolling_win, closed="left", min_periods=rule)\
         .mean()
         .reindex(df.index)
        )

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pandas：参差不齐的时间序列的时间加权滚动平均值的相关文章

将 Matplotlib 误差线放置在不位于条形中心的位置

我正在 Matplotlib 中生成带有错误栏的堆积条形图不幸的是某些层相对较小且数据多样因此多个层的错误条可能重叠从而使它们难以或无法读取 Example 有没有办法设置每个误差条的位置即沿 x 轴移动它以便重叠的线显示在彼此
通过最小元素比较对 5 个元素进行排序

我必须在 python 中使用元素之间的最小比较次数来建模对 5 个元素的列表进行排序的执行计划除此之外复杂性是无关紧要的结果是一个对的列表表示在另一时间对列表进行排序所需的比较我知道有一种算法可以通过 7 次比较总是在元素之间
使用带有关键字参数的 map() 函数

这是我尝试使用的循环map功能于 volume ids 1 2 3 4 5 ip 172 12 13 122 for volume id in volume ids my function volume id ip ip 我有办法做到这一点
PyUSB 1.0：NotImplementedError：此平台不支持或未实现操作

我刚刚开始使用 pyusb 基本上我正在玩示例代码here https github com walac pyusb blob master docs tutorial rst 我使用的是 Windows 7 64 位并从以下地址下载 z
如何替换 pandas 数据框列中的重音符号

我有一个数据框dataSwiss其中包含瑞士城市的信息我想用普通字母替换带有重音符号的字母这就是我正在做的 dataSwiss Municipality dataSwiss Municipality str encode utf 8 d
python 相当于 R 中的 get() （= 使用字符串检索符号的值）

在 R 中 get s 函数检索名称存储在字符变量向量中的符号的值s e g X lt 10 r lt XVI s lt substr r 1 1 X get s 10 取罗马数字的第一个符号r并将其转换为其等效整数尽管花了一些时间翻
使用 Tkinter 显示 numpy 数组中的图像

我对 Python 缺乏经验第一次使用 Tkinter 制作一个 UI 显示我的数字分类程序与 mnist 数据集的结果当图像来自 numpy 数组而不是我的 PC 上的文件路径时我有一个关于在 Tkinter 中显示图像的问题我为
如何在Python中获取葡萄牙语字符？

我正在研究葡萄牙语角色看起来很奇怪我怎样才能解决这个问题代码 import feedparser import random Vou definir os feeds feeds conf feedurl http pplware s
Pygame：有没有简单的方法可以找到按下的任何字母数字的字母/数字？

我目前正在开发的游戏需要让人们以自己的名义在高分板上计时我对如何处理按键有点熟悉但我只处理过寻找特定的按键有没有一种简单的方法可以按下任意键的字母而不必执行以下操作 for event in pygame event get if
在f字符串中转义字符[重复]

这个问题在这里已经有答案了我遇到了以下问题f string gt gt gt a hello how to print hello gt gt gt f a a gt gt gt f a File
python获取上传/下载速度

我想在我的计算机上监控上传和下载速度一个名为 conky 的程序已经在 conky conf 中执行了以下操作 Connection quality alignr wireless link qual perc wlan0 downspe
Fabric env.roledefs 未按预期运行

On the 面料网站 http docs fabfile org en 1 10 usage execution html 给出这个例子 from fabric api import env env roledefs web hosts
将图像分割成多个网格

我使用下面的代码将图像分割成网格的 20 个相等的部分 import cv2 im cv2 imread apple jpg im cv2 resize im 1000 500 imgwidth im shape 0 imgheight i
对年龄列进行分组/分类

我有一个数据框说df有一个柱子 Ages gt gt gt df Age 0 22 1 38 2 26 3 35 4 35 5 1 6 54 我想对这个年龄段进行分组并创建一个像这样的新专栏 If age gt 0 age lt 2 the
如何在 Python 中追加到 JSON 文件？

我有一个 JSON 文件其中包含 67790 1 kwh 319 4 现在我创建一个字典a dict我需要将其附加到 JSON 文件中我尝试了这段代码 with open DATA FILENAME a as f json obj js
为字典中的一个键附加多个值[重复]

这个问题在这里已经有答案了我是 python 新手我有每年的年份和值列表我想要做的是检查字典中是否已存在该年份如果存在则将该值附加到特定键的值列表中例如我有一个年份列表并且每年都有一个值 2010 2 2009 4 1989
解释 Python 中的数字范围

在 Pylons Web 应用程序中我需要获取一个字符串例如关于如何做到这一点有什么建议吗我是 Python 新手我还没有找到任何可以帮助解决此类问题的东西该列表将是 1 2 3 45 46 48 49 50 51 77 使用
类型错误：预期单个张量时的张量列表 - 将 const 与 tf.random_normal 一起使用时

我有以下 TensorFlow 代码 tf constant tf random normal time step batch size 1 1 我正进入状态TypeError List of Tensors when single Te
导入错误：没有名为 site 的模块 - mac

我已经有这个问题几个月了每次我想获取一个新的 python 包并使用它时我都会在终端中收到此错误 ImportError No module named site 我不知道为什么会出现这个错误实际上我无法使用任何新软件包因为每次我
如何使用 Pycharm 安装 tkinter？ [复制]

这个问题在这里已经有答案了 I used sudo apt get install python3 6 tk而且效果很好如果我在终端中打开 python Tkinter 就可以工作但我无法将其安装在我的 Pycharm 项目上 pip

随机推荐

如何计算 WPF 中的非客户端窗口大小？

WPF 有SystemParameters class http msdn microsoft com en us library system windows systemparameters aspx公开了大量的系统指标在我的计算机上
在同一父视图上多次使用一个局部视图

我正在使用 MVC3 剃须刀我有一个场景我必须在同一个父视图上多次使用部分视图我遇到的问题是当渲染父视图时它会在这些部分视图中生成相同的输入控件名称和 ID 由于我的部分视图绑定到不同的模型因此当视图在保存上发回时它会崩溃
XNA - 在表单中嵌入 DirectX 控件？

我想将 DirectX 好吧 XNA 的东西渲染到 system windows forms 控件而不是整个窗口这样我就可以将它与按钮和东西配对这可能吗我会使用哪个控件我该怎么做呢我已经搜索了文档但我不知道应该使用哪些术语是的
在 C++ 中检查空指针的首选方法是什么？

选项A if NULL pSomethingColumn Yes we use Yoda conditions if NULL pSomethingColumn Or if pSomethingColumn if pSomethingCol
使用谷歌图表API并通过ajax在线索提示中显示内容

我有一个jsp页面它使用google图表api以条形图的形式显示数据 Here https google developers appspot com chart interactive docs gallery columnchart是
SQL Server 存储过程对象名称无效

我在尝试修改现有存储过程时收到此错误 Invalid object name dbo BackupDB 我能够创建此存储过程但是当我单击修改选项来修改此存储过程时系统显示了上述错误您会看到所附图片当尝试执行此命令时我也遇到同样的错
TestNG 启动期间发生内部错误

我创建了一个 TestNG 类 FirstTest java 当我将测试用例作为 TestNG Test 运行时出现以下错误期间发生内部错误启动 FirstTest java lang NullPointerException Ecl
AbsoluteLayout - 测量标签高度而不将标签放置在 UI 上

我在 AbsoluteLayout 中手动定位标签为了正确地做到这一点我想在将标签放置在用户界面上之前知道标签的高度我找到了这个解决方案但并非没有实际放置标签 public double MeasureLabelHeight str
针对 dll/lib 的 cmake 链接

我的 cmake 的输出是一个静态库我正在这样创建它 add library myMainLib STATIC BACKEND SOURCES 当我尝试让 myMainLib 链接到第三方 lib dll 时出现了问题 dll 文件将在
如何根据 JComboBox 选择动态地将控件添加到表单？

我正在尝试使用 Swing 创建一个简单的 java 表单这个想法的基本思想是用户将在 JComboBox 中选择 0 到 5 然后通过 ItemStateChanged 侦听器将动态添加几个面板每个面板包含 4 个控件因此如果
在 MySQL 5.6 中重置 ROOT 密码

我一直在关注这些说明 http dev mysql com doc refman 5 6 en resetting permissions html用于重置root本地安装的密码MySQL 5 6在 Windows 7 笔记本电脑上我停止
结构中未初始化字段没有 Clang 警告

考虑以下结构 typedef struct foo int a int b foo 我的编译器不会对以下语句发出警告 foo m 300 为什么没有发出警告我预计会收到警告因为我没有为结构的最终字段提供任何值这是我的编译器调用 cla
Criteria eager fetch-joined 集合以避免 n+1 选择

假设 Item 和 Bid 是实体一个 Item 有多个 Bid 它们被映射到休眠在典型的父子关系中
如何通过文本搜索返回 JSON 数组中项目的索引位置？

这是我的 JSON 数组 var planets Name Mercury Temperature 427 C Position 1 Name Venus Temperature 462 C Position 2 Name Earth Te
sapply 函数从命名向量中的值填充数据帧的列，需要很长时间。有更快的方法吗？

这是我正在做的一个例子 x lt c a 2 b 4 c 2 d 9 df lt data frame names c d c a b x是一个命名向量其值的顺序与它们在中出现的顺序不同df names 我需要在数据框中形成一个新列该列
如何向 django 中的用户模型添加自定义权限？

默认情况下在 django 中当安装了 django contrib auth 的情况下运行syncdb时它会在每个模型上创建默认权限如 foo can change foo can delete 和 foo can add 要向模
netstat 中未显示正在使用的端口，但尝试使用该端口被 Windows 拒绝

我已经找到了这个问题的答案只是想记录我的发现在我最近的一个项目中我发现某个端口不会在 netstat 中显示为正在使用但是当我的项目尝试使用该端口时会抛出错误例如假设我想使用端口 53000 netstat ano finds
加载带有数据的 PROMISE 后的 Angular 2 渲染模板

我是 AngularJS 2 0 的新手基本上我是通过构造函数中的 Promise 加载数据但模板是在 Promise 解析之前渲染的知道如何实现这一目标吗谢谢 M 您可以测试data在使用它之前 ul li item value
字节数组的快速位移 - CMAC 子键

我需要尽可能快地实现 16 字节数组的左移JavaCard 我尝试了这段代码 private static final void rotateLeft final byte output final byte input short car
Pandas：参差不齐的时间序列的时间加权滚动平均值

我有一个参差不齐意思是不规则的频率时间索引的 DataFrame 我想对其执行时间加权滚动平均值以维护 DataFrame 的原始索引假设记录的值在被另一个值取代之前一直有效实现此目的的一种方法是将参差不齐的 DataFrame

Pandas：参差不齐的时间序列的时间加权滚动平均值

Pandas：参差不齐的时间序列的时间加权滚动平均值 的相关文章

随机推荐

热门标签

Pandas：参差不齐的时间序列的时间加权滚动平均值的相关文章