Polars - 使用基于过滤集的“三规则”填充空值

2023-12-19

Goal我想通过分配下一个非空值和上一个非空值之间的差异来填充一系列中的空值。分布不是线性的，而是使用另一列中的值来计算分配

Example

df = pl.DataFrame({
    "id": ["a", "a", "a", "b", "b", "b", "b", "b"],
    "timestamp": ["2023-09-13 14:05:34", "2023-09-13 14:15:04", "2023-09-13 14:30:01", "2023-09-13 12:12:02", "2023-09-13 12:15:02", "2023-09-13 12:30:07", "2023-09-13 12:45:01", "2023-09-13 13:00:02"],
    "value": [10, None, 30, 5, 10, None, None, 40]
}).with_columns(
    pl.col("timestamp").str.strptime( pl.Datetime, "%Y-%m-%d %H:%M:%S"),
)

shape: (8, 3)
┌─────┬─────────────────────┬───────┐
│ id  ┆ timestamp           ┆ value │
│ --- ┆ ---                 ┆ ---   │
│ str ┆ datetime[μs]        ┆ i64   │
╞═════╪═════════════════════╪═══════╡
│ a   ┆ 2023-09-13 14:05:34 ┆ 10    │
│ a   ┆ 2023-09-13 14:15:04 ┆ null  │
│ a   ┆ 2023-09-13 14:30:01 ┆ 30    │
│ b   ┆ 2023-09-13 12:12:02 ┆ 5     │
│ b   ┆ 2023-09-13 12:15:02 ┆ 10    │
│ b   ┆ 2023-09-13 12:30:07 ┆ null  │
│ b   ┆ 2023-09-13 12:45:01 ┆ null  │
│ b   ┆ 2023-09-13 13:00:02 ┆ 40    │
└─────┴─────────────────────┴───────┘

预期输出（带有一些中间列来显示其计算方式）

id	timestamp	value	gap value	gap time s	gap proportion	portion	fill value	final
a	2023/09/13 14:05:34	10						10
a	2023/09/13 14:15:04	null	20	1467	570	7.77	17.77	17.77
a	2023/09/13 14:30:01	30						30
b	2023/09/13 12:12:02	5						5
b	2023/09/13 12:15:02	10						10
b	2023/09/13 12:30:07	null	30	2700	905	10.06	20.06	20.06
b	2023/09/13 12:45:01	null	30	2700	1799	19.99	29.99	29.99
b	2023/09/13 13:00:02	40						40

这个计算是如何进行的
我将以b组为例。

有 2 行包含空值需要填充。
下一个值和上一个值之间的差是 30 ( 40 - 10 )
下一个值与上一个值之间的时间差为 2700 秒 (13:00:02 - 12:15:02)
对于第一个空白行，时间差为 905 秒 (12:30:07 - 12:15:02 )。所以这一行得到分配的部分 30 * ( 905 / 2700 ) (10.06)
所以填充时填充值为 10 + 10.06
下一个空白行得到 30 * ( 1799 / 2700 ) (19.99) 的一部分，所以它的填充值为 10 + 19.99

谢谢您的帮助。我对 Polars 和 Python 都很陌生，所以我的 SQL 头脑仍然围绕着这一切。

就我个人而言，我认为这将是对 fill_null 的一个很好的补充，能够使用三规则，使用不同的列来进行比例

Thanks

(
    df
    .join_asof(
        df
            .filter(pl.col('value').is_not_null())
            .with_columns(
                gap_time=(pl.col('timestamp')-pl.col('timestamp').shift().over('id'))
                            .dt.seconds(),
                prev_good_time=pl.col('timestamp').shift().over('id'),
                prev_good_value=pl.col('value').shift().over('id')
                )
            .drop('value'),
        on='timestamp', by='id', strategy='forward'
        )
    .with_columns(
        gap_value=pl.when(pl.col('value').is_null())
                  .then((pl.col('value')-((pl.col('value')
                                          .forward_fill().shift()
                                          ).over('id'))).backward_fill()),
        gap_time=pl.when(pl.col('value').is_null())
                    .then(pl.col('gap_time')),
        gap_proportion=pl.when(pl.col('value').is_null())
                    .then((pl.col('timestamp')-pl.col('prev_good_time')).dt.seconds()),
                  )
    .with_columns(
        portion=pl.col('gap_value')*(pl.col('gap_proportion')/pl.col('gap_time'))
    )
    .with_columns(
        fill_value=pl.col('prev_good_value')+pl.col('portion')
    )
    .select(
        'id','timestamp',
        value=pl.when(pl.col('value').is_null())
            .then(pl.col('fill_value'))
            .otherwise(
                pl.col('value')
            )
    )
)

我们做的第一件事是对原始版本的过滤版本执行 join_asof 。这使我们能够计算有效值之间的时间，并留出与非空值和值本身关联的最近时间。 join 的 asof 部分表示将加入on基于时间但滚动直到找到下一个（或上一个）匹配时间，然后by其他一些等式列。

您可以嵌套大部分其余的计算，而无需重复自己或使用如此多的上下文，但我让它非常冗长，因此很容易解构。之所以有这么多的电话with_columns的问题是您无法在同一上下文中设置和使用列，因此每当您创建要再次使用的列时，您都必须链接另一个上下文。

输出（不包括中间列）

shape: (8, 3)
┌─────┬─────────────────────┬───────────┐
│ id  ┆ timestamp           ┆ value     │
│ --- ┆ ---                 ┆ ---       │
│ str ┆ datetime[μs]        ┆ f64       │
╞═════╪═════════════════════╪═══════════╡
│ a   ┆ 2023-09-13 14:05:34 ┆ 10.0      │
│ a   ┆ 2023-09-13 14:15:04 ┆ 17.770961 │
│ a   ┆ 2023-09-13 14:30:01 ┆ 30.0      │
│ b   ┆ 2023-09-13 12:12:02 ┆ 5.0       │
│ b   ┆ 2023-09-13 12:15:02 ┆ 10.0      │
│ b   ┆ 2023-09-13 12:30:07 ┆ 20.055556 │
│ b   ┆ 2023-09-13 12:45:01 ┆ 29.988889 │
│ b   ┆ 2023-09-13 13:00:02 ┆ 40.0      │
└─────┴─────────────────────┴───────────┘

numpy 可以做到

这是一种让 numpy 完成这项工作的 hacky（就好像上面的内容不是 hacky 一样）的方法。

finaldf=[]
df=df.with_columns(pl.col('value').cast(pl.Float64))
for little_df in df.partition_by('id'):
    x=little_df.filter(pl.col('value').is_null()).select(pl.col('timestamp').to_physical()).to_numpy()
    xp,fp = little_df.filter(pl.col('value').is_not_null()).select('timestamp','value').to_numpy().transpose()
    finaldf.append(
        pl.concat([
            little_df.filter(pl.col('value').is_not_null()).lazy(),
            little_df.filter(pl.col('value').is_null()).with_columns(value=pl.Series(np.interp(x, xp, fp).transpose()[0])).lazy()
        ])
    )
finaldf=pl.concat(finaldf).sort(['id','timestamp']).collect()
finaldf
shape: (8, 3)
┌─────┬─────────────────────┬───────────┐
│ id  ┆ timestamp           ┆ value     │
│ --- ┆ ---                 ┆ ---       │
│ str ┆ datetime[μs]        ┆ f64       │
╞═════╪═════════════════════╪═══════════╡
│ a   ┆ 2023-09-13 14:05:34 ┆ 10.0      │
│ a   ┆ 2023-09-13 14:15:04 ┆ 17.770961 │
│ a   ┆ 2023-09-13 14:30:01 ┆ 30.0      │
│ b   ┆ 2023-09-13 12:12:02 ┆ 5.0       │
│ b   ┆ 2023-09-13 12:15:02 ┆ 10.0      │
│ b   ┆ 2023-09-13 12:30:07 ┆ 20.055556 │
│ b   ┆ 2023-09-13 12:45:01 ┆ 29.988889 │
│ b   ┆ 2023-09-13 13:00:02 ┆ 40.0      │
└─────┴─────────────────────┴───────────┘

另一种更简洁的极坐标方式

在第一轮中，我专注于复制所有相同的中间列，但如果我直接寻找答案，我们可以做到这一点......

(
    df.join_asof(
    df.filter(pl.col('value').is_not_null())
    .with_columns(
        value_slope=(pl.col('value')-pl.col('value').shift().over('id'))/(pl.col('timestamp')-pl.col('timestamp').shift().over('id')), 
        value_slope_since=pl.col('timestamp').shift(),
        value_base=pl.col('value').shift()
        )
    .drop('value'),
    on='timestamp', by='id', strategy='forward'
    )
    .select('id','timestamp',value=pl.coalesce(pl.col('value'), pl.col('value_base')+pl.col('value_slope')*(pl.col('timestamp')-pl.col('value_slope_since'))))
    )

可扩展的功能

def interp(df, y_col, id_cols=None):
    if not isinstance(y_col, str):
        raise ValueError("y_col should be string")
    if isinstance(id_cols, str):
        id_cols=[id_cols]
    if id_cols is None:
        id_cols=['__dummyid']
        df=df.with_columns(__dummyid=0)
    lf=df.select(id_cols + [y_col]).lazy()
    value_cols=[x for x in df.columns if x not in id_cols and x!=y_col]
    for value_col in value_cols:
        lf=lf.join(
            df.join_asof(
                df.filter(pl.col(value_col).is_not_null())
                .select(
                    *id_cols, y_col,
                    __value_slope=(pl.col(value_col)-pl.col(value_col).shift().over(id_cols))/(pl.col(y_col)-pl.col(y_col).shift().over(id_cols)), 
                    __value_slope_since=pl.col(y_col).shift(),
                    __value_base=pl.col(value_col).shift()
                    ),
                on=y_col, by=id_cols, strategy='forward'
            )
            .select(
                id_cols+ [y_col] + [pl.coalesce(pl.col(value_col), 
                    pl.coalesce(pl.col('__value_base'), pl.col('__value_base').shift(-1))+
                    pl.coalesce(pl.col('__value_slope'), pl.col('__value_slope').shift(-1))*(pl.col(y_col)-
                    pl.coalesce(pl.col('__value_slope_since'), pl.col('__value_slope_since').shift(-1)))).alias(value_col)]
                )
            .lazy(),
            on=[y_col]+id_cols
            )
    if id_cols[0]=='__dummyid':
        lf=lf.select(pl.exclude('__dummyid'))
    return lf.collect()

有了这个功能你就可以做

interp(df, "timestamp", "id")

其中第一个参数是 df，第二个参数是您的时间或 y 列。第三个可选参数是如果您有 id 列（它可以采用列表或单个字符串）。它将推断 df 中未作为时间或 id 列提供给它的任何列都是值，并且它将对它们进行插值。

如果你能将它修补到pl.DataFrame您可以将它用作数据框方法，如下所示

pl.DataFrame.interp=interp
df.interp('timestamp','id')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pythonpolars

Polars - 使用基于过滤集的“三规则”填充空值的相关文章

如何替换 Pandas Dataframe 中不在列表中的所有值？ [复制]

这个问题在这里已经有答案了我有一个值列表如何替换 Dataframe 列中不在给定值列表中的所有值例如 gt gt gt df pd DataFrame D ND D garbage columns S gt gt gt df S 0
在 Python 中解析 TCL 列表

我需要在双括号上拆分以空格分隔的 TCL 列表例如 OUTPUT 172 25 50 10 01 01 Ethernet 172 25 50 10 01 02 Ethernet Traffic Item 1 172 25 50 10 01
Pandas set_levels，如何避免标签排序？

我使用时遇到问题set levels多索引 from io import StringIO txt Name Height Age Metres A 1 25 B 95 1 df pd read csv StringIO txt heade
如何在 Matplotlib 饼图周围绘制箭头以将每个标签指向圆圈中各自的部分？

我一直在用 Matplotlib 绘制一些图表我有一个饼图想要在图表周围绘制箭头使每个标签都指向图表我有一个例子这是我当前的代码 import matplotlib pyplot as plt plt rcParams font
在 Python 中将列表元素作为单独的项目返回

Stackoverflow 的朋友们大家好我有一个计算列表的函数我想单独返回列表的每个元素如下所示接收此返回的函数旨在处理未定义数量的参数 def foo my list 1 2 3 4 return 1 2 3 4 列表中的元素数
在 Celery 任务中调用 Google Cloud API 永远不会返回

我正在尝试拨打外部电话Google Cloud Natural Language API从一个内Celery任务使用google cloud python包裹问题是对 API 的调用永远不会返回挂起 celery task def g
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
矩形函数的数值傅里叶变换

本文的目的是通过一个众所周知的分析傅里叶变换示例来正确理解 Python 或 Matlab 上的数值傅里叶变换为此我选择矩形函数这里报告了它的解析表达式及其傅立叶变换https en wikipedia org wiki Rectan
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
Python 3：将字符串转换为变量[重复]

这个问题在这里已经有答案了我正在从 txt 文件读取文本并且需要使用我读取的数据之一作为类实例的变量 class Sports def init self players 0 location name self players pla
导入错误：没有名为flask.ext.login的模块

我的flask login 模块有问题我已经成功安装了flask login模块另外从命令提示符我可以轻松运行此脚本不会出现错误 Python 2 7 r27 82525 Jul 4 2010 07 43 08 MSC v 1500
无法导入 langchain.agents.load_tools

我正在尝试使用 LangChain Agents 但无法导入 load tools 版本 langchain 0 0 27 我尝试过这些 from langchain agents import initialize agent from
未知错误：Chrome 无法启动：异常退出

当我使用 chromedriver 对 Selenium 运行测试时出现此错误 selenium common exceptions WebDriverException Message unknown error Chrome fail
python的shutil.move()在linux上是原子的吗？

我想知道python的shutil move在linux上是否是原子的如果源文件和目标文件位于两个不同的分区上行为是否不同或者与它们存在于同一分区上时的行为相同吗我更关心的是如果源文件和目标文件位于同一分区上 shutil move
如何将 ascii 值列表转换为 python 中的字符串？

我在 Python 程序中有一个列表其中包含一系列数字这些数字本身就是 ASCII 值如何将其转换为可以在屏幕上回显的常规字符串您可能正在寻找 chr gt gt gt L 104 101 108 108 111 44 32 1
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
如何将 Django 中的权限添加到模型并使用 shell 进行测试

我在模型中添加了 Meta 类并同步了数据库然后在 shell 中创建了一个对象它返回 false 所以我真的无法理解错误在哪里或者缺少什么是否在其他文件中可能存在某种配置 class Employer User Employer in
等待子进程使用 os.system

我用了很多os system在 for 循环内调用创建后台进程如何等待所有后台进程结束 os wait告诉我没有子进程 ps 我使用的是Solaris 这是我的代码 usr bin python import subprocess imp

随机推荐

从多个中分离出单个

我需要将图像分割或裁剪为多张图像下面给出了我的代码它可以将图像分成 4 块但我无法使用我的代码创建 6 或 9 块我是初学者所以无法找到解决方案我的代码如下 from scipy import misc Read the ima
非常基本的神经网络不学习

我已经阅读了一些 CNTK Python 教程并且正在尝试编写一个非常基本的单层神经网络可以计算逻辑 AND 我有正常运行的代码但网络没有学习事实上随着每个小批量训练损失变得越来越严重 import numpy as np fr
Cocoapods 声称可以安装但无法运行

我使用以下命令运行了 cocoapods 的安装sudo gem install cocoapods 该命令声称已成功完成然而当我这样做时gem list cocoapods它没有显示在列表中当我这样做时pod version我收到错误
在数据库中保存 celery 任务（用于重新运行）

我们的工作流程目前是围绕旧版本的 celery 构建的因此请记住事情已经不是最佳的我们需要运行一个任务并将该任务运行的记录保存在数据库中如果该任务失败或挂起这种情况经常发生我们希望重新运行就像第一次运行一样但这不应该自动发生
了解何时使用事件以及何时使用回调

对于事件发起者引发一个事件该事件将由那些选择接收该事件的例程接收接收方指定将从哪些发起方接收哪些事件通过回调例程在完成后会通知调用者已完成因此我很困惑应该在哪里使用事件或应该在哪里使用回调因为我可以完成回调对事件的操作但会
以编程方式确定IP地址是通过dhcp分配还是在Java中手动设置

有什么方法可以发现本地网络接口的地址是通过 DHCP 分配的还是通过 Java 静态设置的因此正如您仅请求 Win NT 解决方案一样这是我的代码它列出了具有当前配置值的网络接口注意EnableDHCP注册表键值我想这就是重点
如何使用 TCPDF 与 PHP 邮件功能

to email protected cdn cgi l email protection subject Receipt repEmail email protected cdn cgi l email protection fileNa
在未初始化的对象上调用方法（空指针）

如果你在一个为零的对象指针上调用一个方法可能是因为有人忘记初始化它 Objective C 中的正常行为是什么它不应该产生某种错误分段错误空指针异常吗如果这是正常行为是否有办法改变这种行为通过配置编译器以便程序在运行时
从解析树中获取某些节点

我正在研究一个涉及通过霍布斯算法进行照应解析的项目我已经使用斯坦福解析器解析了我的文本现在我想操作节点以实现我的算法目前我不明白如何根据 POS 标签访问节点例如我需要以代词开头如何获取所有代词使用访客我对 Java 有
相关矩阵的平均值 - pandas dataframe

我在 pandas python DataFrame 中有一个很大的相关矩阵 df 342 342 如何获取上三角形中所有数字不包括对角线上的 1 的平均值标准差等谢谢另一个潜在的单行答案 In 1 corr Out 1 a b c
在 Android 中设置音频文件媒体元数据 (ID3)

我试图找出是否有一种方法可以在 Android 中的 anudio 文件上设置媒体元数据主要是 ID3 如艺术家专辑歌曲等我注意到可以使用以下方法检索此类信息媒体元数据检索器 http developer android com r
如何为单击一次应用程序指定用户凭据？

对于常规 exe 文件我始终可以右键单击并选择运行为如何以类似的方式在不同的凭据下运行 Click Once 应用程序我说的是应用程序本身而不是安装程序其实这是可以的只需要两步就可以了首先您需要启动 ClickOnce d
MSDN关于存储过程默认返回值

谁能准确指出 MSDN 所说的如果没有错误发生每个用户存储过程默认返回 0 的地方吗换句话说我可以确定下面给出的示例代码是存储过程吗 IF someStatement BEGIN RETURN 1 END 如果 someStateme
Play框架2开发配置

如何在 Play 2 应用程序中为开发和生产模式设置不同的配置我尝试在开发模式下的应用程序启动时使用 JVM 参数如下所示 play run Dconfig resource dev conf 或从 Play 控制台 run Dconf
TFS 2015 Build：测试结果未发布

当 TFS 2015 执行自动化测试步骤时我遇到了一个非常奇怪的错误结果已生成但 TFS 似乎无法找到它们最后只是说没有找到可以发布的结果这很奇怪因为它甚至输出了结果完整路径检查下面的构建日志以获取更多信息 2015 12 1
Edittext 只允许字母（以编程方式）

我试图获得一个只允许字母小写和大写的editTextview 它适用于以下代码 edittv setKeyListener DigitsKeyListener getInstance abcdefghijklmnopqrstuvwxyz
Django rss feedparser 返回没有“标题”的提要

我正在 Django 中编写一个基本的 RSS 提要阅读器我有一个用户提交 RSS 提要的表单我将其添加到他的提要列表中但由于某种原因我无法使用提要解析器提取有关提要的基本信息当我运行以下代码时 def form valid se
spring 4.3中的注释是什么

我正在将我的应用程序从 spring 3 x 升级到 spring 4 3 我想要 java 配置注释而不是 xml 配置我无法使用注释进行配置
Zend Framework：如何通过指定列的值查找表行？

我正在实现我的模型就像快速入门指南 http framework zend com docs quickstart create a model and database table 在我的模型中我试图实现findByToken 方法
Polars - 使用基于过滤集的“三规则”填充空值

Goal我想通过分配下一个非空值和上一个非空值之间的差异来填充一系列中的空值分布不是线性的而是使用另一列中的值来计算分配 Example df pl DataFrame id a a a b b b b b timestamp 2023

Polars - 使用基于过滤集的“三规则”填充空值

Polars - 使用基于过滤集的“三规则”填充空值 的相关文章

随机推荐

热门标签

Polars - 使用基于过滤集的“三规则”填充空值的相关文章