pandas groupby 和rolling_apply 忽略NaN

2024-04-10

我有一个 pandas 数据框，我想计算列的滚动平均值（在 groupby 子句之后）。但是，我想排除 NaN。

例如，如果 groupby 返回 [2, NaN, 1]，则结果应为 1.5，而当前它返回 NaN。

我尝试了以下方法，但似乎不起作用：

df.groupby(by=['var1'])['value'].apply(pd.rolling_apply, 3,  lambda x: np.mean([i for i in x if i is not np.nan and i!='NaN']))

如果我尝试这样做：

df.groupby(by=['var1'])['value'].apply(pd.rolling_apply, 3,  lambda x: 1)

我在输出中得到 NaN，所以它一定与 pandas 在后台的工作方式有关。

有任何想法吗？

编辑：这是我想要做的代码示例：

import pandas as pd
import numpy as np

df = pd.DataFrame({'var1' : ['a', 'b', 'a', 'b', 'a', 'b', 'a', 'b'], 'value' : [1, 2, 3, np.nan, 2, 3, 4, 1] })
print df.groupby(by=['var1'])['value'].apply(pd.rolling_apply, 2,  lambda x: np.mean([i for i in x if i is not np.nan and i!='NaN']))

结果是：

0    NaN
1    NaN
2    2.0
3    NaN
4    2.5
5    NaN
6    3.0
7    2.0

虽然我想要以下内容：

一如既往，在 pandas 中，坚持使用矢量化方法（即避免apply）对于性能和可扩展性至关重要。

您想要执行的操作有点繁琐，因为 groupby 对象上的滚动操作目前不支持 NaN（版本 0.18.1）。因此，我们需要几行短代码：

g1 = df.groupby(['var1'])['value']              # group values  
g2 = df.fillna(0).groupby(['var1'])['value']    # fillna, then group values

s = g2.rolling(2).sum() / g1.rolling(2).count() # the actual computation

s.reset_index(level=0, drop=True).sort_index()  # drop/sort index

这个想法是对窗口中的值求和（使用sum），计算 NaN 值（使用count）然后除以求均值。此代码提供以下与您所需的输出相匹配的输出：

0    NaN
1    NaN
2    2.0
3    2.0
4    2.5
5    3.0
6    3.0
7    2.0
Name: value, dtype: float64

在更大的 DataFrame（大约 100,000 行）上进行测试，运行时间低于 100 毫秒，比我尝试过的任何基于应用的方法都要快得多。

可能值得根据实际数据测试不同的方法，因为时间可能会受到其他因素（例如组数）的影响。不过，可以肯定的是，矢量化计算将会胜出。

上面显示的方法非常适合简单计算，例如滚动平均值。它将适用于更复杂的计算（例如滚动标准差），尽管实现更复杂。

总体思路是查看 pandas 中快速的每个简单例程（例如sum），然后用单位元素填充任何空值（例如0）。然后您可以使用 groupby 并执行滚动操作（例如.rolling(2).sum()）。然后将输出与其他操作的输出组合。

例如，要实施groupby NaN 感知滚动方差（其中标准差是平方根）我们必须找到“平方的平均值减去平均值的平方”。这是它的草图：

def rolling_nanvar(df, window):
    """
    Group df by 'var1' values and then calculate rolling variance,
    adjusting for the number of NaN values in the window.

    Note: user may wish to edit this function to control degrees of
    freedom (n), depending on their overall aim.
    """
    g1 = df.groupby(['var1'])['value']
    g2 = df.fillna(0).groupby(['var1'])['value']
    # fill missing values with 0, square values and groupby
    g3 = df['value'].fillna(0).pow(2).groupby(df['var1'])

    n = g1.rolling(window).count()

    mean_of_squares = g3.rolling(window).sum() / n
    square_of_mean = (g2.rolling(window).sum() / n)**2
    variance = mean_of_squares - square_of_mean
    return variance.reset_index(level=0, drop=True).sort_index()

请注意，此函数可能在数值上不稳定（平方可能导致溢出）。熊猫用途韦尔福德算法 https://en.wikipedia.org/wiki/Algorithms_for_calculating_variance#Online_algorithm内部来缓解这个问题。

不管怎样，这个函数虽然使用了几个操作，但是速度还是很快的。这是与建议的更简洁的基于应用的方法的比较亚基姆·皮罗任科 https://stackoverflow.com/a/37395589/3923281:

>>> df2 = pd.concat([df]*10000, ignore_index=True) # 80000 rows
>>> %timeit df2.groupby('var1')['value'].apply(\
         lambda gp: gp.rolling(7, min_periods=1).apply(np.nanvar))
1 loops, best of 3: 11 s per loop

>>> %timeit rolling_nanvar(df2, 7)
10 loops, best of 3: 110 ms per loop

在这种情况下，矢量化速度快了 100 倍。当然，根据您拥有多少数据，您可能希望坚持使用apply因为它允许您以牺牲性能为代价来实现通用性/简洁性。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas groupby 和rolling_apply 忽略NaN 的相关文章

在 Python 中将列表元素作为单独的项目返回

Stackoverflow 的朋友们大家好我有一个计算列表的函数我想单独返回列表的每个元素如下所示接收此返回的函数旨在处理未定义数量的参数 def foo my list 1 2 3 4 return 1 2 3 4 列表中的元素数
多输出堆叠回归器

一次性问题我正在尝试构建一个多输入堆叠回归器添加到 sklearn 0 22 据我了解我必须结合StackingRegressor and MultiOutputRegressor 经过多次尝试这似乎是正确的顺序 import nu
Django Rest Framework 是否有第三方应用程序来自动生成 swagger.yaml 文件？

我有大量的 API 端点编写在django rest framework并且不断增加和更新如何创建和维护最新的 API 文档我当前的版本是 Create swagger yaml文件并以某种方式在每次端点更改时自动生成然后使用此文件作
使用主题交换运行多个 Celery 任务

我正在用 Celery 替换一些自制代码但很难复制当前的行为我期望的行为如下创建新用户时应向tasks与交换user created路由键该消息应该触发两个 Celery 任务即send user activate email
从Django中具有外键关系的两个表中检索数据？ [复制]

这个问题在这里已经有答案了 This is my models py file from django db import models class Author models Model first name models CharFie
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
为什么一旦我离开内置的运行服务器，Django 就无法找到我的管理媒体文件？

当我使用内置的简单服务器时一切正常管理界面很漂亮 python manage py runserver 但是当我尝试使用 wsgi 服务器为我的应用程序提供服务时django core handlers wsgi WSGIHandle
使用 python/numpy 重塑数组

我想重塑以下数组 gt gt gt test array 11 12 13 14 21 22 23 24 31 32 33 34 41 42 43 44 为了得到 gt gt gt test2 array 11 12 21 22 13 14
嵌套作用域和 Lambda

def funct x 4 action lambda n x n return action x funct print x 2 prints 16 我不太明白为什么2会自动分配给n n是返回的匿名函数的参数funct 完全等价的定义fu
python的shutil.move()在linux上是原子的吗？

我想知道python的shutil move在linux上是否是原子的如果源文件和目标文件位于两个不同的分区上行为是否不同或者与它们存在于同一分区上时的行为相同吗我更关心的是如果源文件和目标文件位于同一分区上 shutil move
通过Python连接到Bigquery：ProjectId和DatasetId必须非空

我编写了以下脚本来通过 SDK 将 Big Query 连接到 Python 如下所示 from google cloud import bigquery client bigquery Client project My First Pr
pandas - 包含时间序列数据的堆积条形图

我正在尝试使用时间序列数据在 pandas 中创建堆积条形图 DATE TYPE VOL 0 2010 01 01 Heavy 932 612903 1 2010 01 01 Light 370 612903 2 2010 01 01 Me
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
Python：Goslate 翻译请求返回“503：服务不可用”[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们不允许提出寻求书籍工具软件库等推荐的问题您可以编辑问题以便用事实和引文来回答这个问题似乎不是关于主要由程序员使用的特定编程问
如何以正确的方式为独立的Python应用程序制作setup.py？

我读过几个类似的主题但还没有成功我觉得我错过或误解了一些基本的事情这就是我失败的原因我有一个用 python 编写的应用程序我想在标准 setup py 的帮助下进行部署由于功能复杂它由不同的 python 模块组成但单独
如何从pandas中的多列计算多列

我正在尝试使用函数从 pandas 数据框中的多个列计算多个列该函数采用三个参数 a b 和 c 并返回三个计算值 sum prod 和 quot 在我的 pandas 数据框中我有三个列 a b 和 c 我想从中计算列 sum pro
等待子进程使用 os.system

我用了很多os system在 for 循环内调用创建后台进程如何等待所有后台进程结束 os wait告诉我没有子进程 ps 我使用的是Solaris 这是我的代码 usr bin python import subprocess imp
pandas.read_csv 将列名移动一倍

我正在使用位于的 ALL zip 文件here http www fec gov disclosurep PDownload do 我的目标是用它创建一个 pandas DataFrame 但是如果我跑 data pd read csv
如何在 Flask 中的视图函数/会话之间传递复杂对象

我正在编写一个 Web 应用程序当且仅当用户登录时该应用程序从第三方服务器接收大量数据这些数据被解析为自定义对象并存储在list 现在用户在应用程序中使用这些数据调用不同的视图例如发送不同的请求我不确定什么是最好的模式在视
python 对浮点数进行不正确的舍入

gt gt gt a 0 3135 gt gt gt print 3f a 0 314 gt gt gt a 0 3125 gt gt gt print 3f a 0 312 gt gt gt 我期待 0 313 而不是 0 312 有没有

随机推荐

将接口方法作为参数传递

Note 这很可能是非常C 特定语言问题与以下无关WCF or web services at all 有3方ASMXWeb 服务用于数据检索我创建了一个名为的通用方法ExecuteCommand 用于针对 Web 服务的每个请求该
FSharp.Data.JsonProvider - 从类型获取 json

FSharp Data JsonProvider 提供了一种从 json 转换为 F 类型的方法是否可以反向操作即声明 FSharp Data JsonProvider 创建的类型之一的实例将字段值设置为我需要的值然后获取等效的 j
Pyenv 不自动激活

我已经在我的环境中安装了 pyenv 直到这个周末当我安装 Kivy 时我的 pyenv 本地设置一直工作正常但是现在当我进入各个 python 项目目录时 pyenv 不会自动正确激活正确的 python 版本 E g 我像这样使
Spring Security 与 AcceptHeaderLocaleResolver 和 i18n

我陷入困境可能错过了文档中的某些内容或犯了一些小错误 Spring Security 3 0 5 已集成到我的 Spring MVC 3 0 5 应用程序中 AcceptHeaderLocaleResolver用于区域设置检测除了安全错
Angular JS 2 npm 和 ng(Angular-Cli) 之间的区别（内置工具）

在 AngularJS 2 中 NPM 和 NG Angular CLI 之间的主要区别是什么如果通过 NPM 如果我们可以构建我们的应用程序并且它可以工作那么 NG 构建 Angular cli 的需求是什么 npm start 与
SQLite3 .backup 和 .dump 命令是否锁定数据库？

我能找到的唯一文档 backup and dump是由 help backup DB FILE Backup DB default main to FILE dump TABLE Dump the database in an SQL te
使用泛型快速查找给定类的超级视图

我想我正在与仿制药作斗争我想创建简单的 UIView 扩展来递归地查找函数参数中传递的类的超级视图我希望该函数返回可选的显然包含 nil 或作为提供的类的实例可见的对象 extension UIView func superviewO
强制 Internet Explorer 使用特定的 Java 运行时环境安装？

当查看别人包含小程序的网页时当我安装了多个 JRE 时如何强制 Internet Explorer 6 0 使用特定的 JRE 首先禁用当前安装的 Java 版本要执行此操作请转至控制面板 gt Java gt 高级 gt 浏览器
没有要加载的文件——rest_client (Rails 3)

当我做thin start 这是我得到的错误 thin start gt gt Using rack adapter rvm gems ruby 1 9 2 p0 gems activesupport 3 0 9 lib active su
尾递归函数上的 StackOverflowError

当我使用 avg bids 4000 10 5 调用以下 Clojure 代码时会导致 java lang StackOverflowError 我试图找出原因因为 sum bids 是作为尾递归函数编写的所以应该可以工作使用 Cl
如何允许 html 返回 angular2 管道？

我有一个返回 html 字符串的管道但是字符串输出可能会作为安全默认值进行转义我确信必须有一个选项来允许使用 html 但当我搜索文档时找不到它我怎样才能告诉管道允许渲染实际的 html 使用绑定innerHTML https dev
转换 boost::variant 类型的 std::vector

我如何实现下面的函数来从矢量转换Value to a Container 我想断言如果不是所有成员values属于相同类型即向量包含字符串和整数的混合这是因为该函数的返回值是std vector
发布签名的 Android 应用程序，Google Plus 登录和 Google 地图无法正常工作

1 我正在使用谷歌登录 and 谷歌地图在我的android应用程序中 2 在调试应用程序时从Android Studio到真实设备移动 Google plus登录和Google Map工作正常一切正常 Problem 1 Build
检查 Ember Handlebar If 块助手中的值是否等于

我们如何检查值是否相等ember js http www emberjs com的 If 块助手 if person John 我们如何在车把上执行上述操作 The if helper 只能测试属性不能测试任意表达式因此在这种情况下
在nodeJs socket.io中，webstorm中的方法未解决

我正在节点中学习socket io 并且我已经使用安装了该模块 npm install socket io save 这是我的代码 var app require express var http require http Server
使用 Maven 3 设置 Struts2 EAR 项目

我正在迁移自Apache Ant Apache Ivy to Apache Maven用于新项目的生命周期管理我从未在正式版本中使用过 Maven 所以我对此完全是新手目前我已经安装并配置Maven 3 http maven apach
静态变量与成员

如果某个类的数据将被修改并且需要在整个程序中保留但仅在一个成员函数中使用那么最好将该变量设为其所在例程的局部静态变量还是使其成为该例程的局部静态变量班级成员问题不是数据将在整个程序中使用而是如果您创建此类的两个对象您是否希
使用 nltk 中的meteor_score模块评估模型时如何实现meteor分数？

我目前有 2 个文件 reference txt 和 model txt 这两个文本文件包含原始字幕和训练后生成的字幕我可以简单地执行以下操作来获取流星分数 score nltk translate meteor score meteor
如何以MVVM模式加载wpf用户控件

我正在创建一个采用 mvvm 模式的 wpf 用户控件所以我们有视图代码隐藏文件中没有代码视图模型模型数据访问文件 I have 主窗口 xaml 作为视图文件我需要与之绑定主窗口模型 cs 通常在 wpf 应用程序中我们
pandas groupby 和rolling_apply 忽略NaN

我有一个 pandas 数据框我想计算列的滚动平均值在 groupby 子句之后但是我想排除 NaN 例如如果 groupby 返回 2 NaN 1 则结果应为 1 5 而当前它返回 NaN 我尝试了以下方法但似乎不起作用 df

pandas groupby 和rolling_apply 忽略NaN

pandas groupby 和rolling_apply 忽略NaN 的相关文章

随机推荐

热门标签