如何在每个组内创建滞后变量？

2023-11-30

我有一个数据表：

require(data.table)

set.seed(1)
data <- data.table(time = c(1:3, 1:4),
                   groups = c(rep(c("b", "a"), c(3, 4))),
                   value = rnorm(7))

data
#    groups time      value
# 1:      b    1 -0.6264538
# 2:      b    2  0.1836433
# 3:      b    3 -0.8356286
# 4:      a    1  1.5952808
# 5:      a    2  0.3295078
# 6:      a    3 -0.8204684
# 7:      a    4  0.4874291

我想计算“值”列的滞后版本，within每个级别的“组”。

结果应该看起来像

#   groups time      value  lag.value
# 1      a    1  1.5952808         NA
# 2      a    2  0.3295078  1.5952808
# 3      a    3 -0.8204684  0.3295078
# 4      a    4  0.4874291 -0.8204684
# 5      b    1 -0.6264538         NA
# 6      b    2  0.1836433 -0.6264538
# 7      b    3 -0.8356286  0.1836433

我尝试过使用lag直接地：

data$lag.value <- lag(data$value)

...这显然行不通。

我也尝试过：

unlist(tapply(data$value, data$groups, lag))
 a1         a2         a3         a4         b1         b2         b3 
 NA -0.1162932  0.4420753  2.1505440         NA  0.5894583 -0.2890288

这几乎就是我想要的。然而，生成的向量的排序与 data.table 中的排序不同，这是有问题的。

在基本 R、plyr、dplyr 和 data.table 中执行此操作的最有效方法是什么？

你可以在data.table

 library(data.table)
 data[, lag.value:=c(NA, value[-.N]), by=groups]
  data
 #   time groups       value   lag.value
 #1:    1      a  0.02779005          NA
 #2:    2      a  0.88029938  0.02779005
 #3:    3      a -1.69514201  0.88029938
 #4:    1      b -1.27560288          NA
 #5:    2      b -0.65976434 -1.27560288
 #6:    3      b -1.37804943 -0.65976434
 #7:    4      b  0.12041778 -1.37804943

对于多列：

nm1 <- grep("^value", colnames(data), value=TRUE)
nm2 <- paste("lag", nm1, sep=".")
data[, (nm2):=lapply(.SD, function(x) c(NA, x[-.N])), by=groups, .SDcols=nm1]
 data
#    time groups      value     value1      value2  lag.value lag.value1
#1:    1      b -0.6264538  0.7383247  1.12493092         NA         NA
#2:    2      b  0.1836433  0.5757814 -0.04493361 -0.6264538  0.7383247
#3:    3      b -0.8356286 -0.3053884 -0.01619026  0.1836433  0.5757814
#4:    1      a  1.5952808  1.5117812  0.94383621         NA         NA
#5:    2      a  0.3295078  0.3898432  0.82122120  1.5952808  1.5117812
#6:    3      a -0.8204684 -0.6212406  0.59390132  0.3295078  0.3898432
#7:    4      a  0.4874291 -2.2146999  0.91897737 -0.8204684 -0.6212406
#    lag.value2
#1:          NA
#2:  1.12493092
#3: -0.04493361
#4:          NA
#5:  0.94383621
#6:  0.82122120
#7:  0.59390132

Update

From data.table版本 >=v1.9.5，我们可以用shift with type as lag or lead。默认情况下，类型是lag.

data[, (nm2) :=  shift(.SD), by=groups, .SDcols=nm1]
#   time groups      value     value1      value2  lag.value lag.value1
#1:    1      b -0.6264538  0.7383247  1.12493092         NA         NA
#2:    2      b  0.1836433  0.5757814 -0.04493361 -0.6264538  0.7383247
#3:    3      b -0.8356286 -0.3053884 -0.01619026  0.1836433  0.5757814
#4:    1      a  1.5952808  1.5117812  0.94383621         NA         NA
#5:    2      a  0.3295078  0.3898432  0.82122120  1.5952808  1.5117812
#6:    3      a -0.8204684 -0.6212406  0.59390132  0.3295078  0.3898432
#7:    4      a  0.4874291 -2.2146999  0.91897737 -0.8204684 -0.6212406
#    lag.value2
#1:          NA
#2:  1.12493092
#3: -0.04493361
#4:          NA
#5:  0.94383621
#6:  0.82122120
#7:  0.59390132

如果您需要相反，请使用type=lead

nm3 <- paste("lead", nm1, sep=".")

使用原始数据集

  data[, (nm3) := shift(.SD, type='lead'), by = groups, .SDcols=nm1]
  #  time groups      value     value1      value2 lead.value lead.value1
  #1:    1      b -0.6264538  0.7383247  1.12493092  0.1836433   0.5757814
  #2:    2      b  0.1836433  0.5757814 -0.04493361 -0.8356286  -0.3053884
  #3:    3      b -0.8356286 -0.3053884 -0.01619026         NA          NA
  #4:    1      a  1.5952808  1.5117812  0.94383621  0.3295078   0.3898432
  #5:    2      a  0.3295078  0.3898432  0.82122120 -0.8204684  -0.6212406
  #6:    3      a -0.8204684 -0.6212406  0.59390132  0.4874291  -2.2146999
  #7:    4      a  0.4874291 -2.2146999  0.91897737         NA          NA
 #   lead.value2
 #1: -0.04493361
 #2: -0.01619026
 #3:          NA
 #4:  0.82122120
 #5:  0.59390132
 #6:  0.91897737
 #7:          NA

data

 set.seed(1)
 data <- data.table(time =c(1:3,1:4),groups = c(rep(c("b","a"),c(3,4))),
             value = rnorm(7), value1=rnorm(7), value2=rnorm(7))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dataTable

plyr

dplyr

如何在每个组内创建滞后变量？的相关文章

如何生成向量的所有组合[重复]

这个问题在这里已经有答案了假设我有 3 个绿球 2 个橙球和 8 个黄球我想订购它们鉴于所有相同颜色的球都是相同的如何生成所有可能的序列在 R 中使用gregmisc 我可以 balls lt c orange orange g
如何调整ggplot直方图的时间刻度轴

我正在使用一个数据框其中一列包含POSIXct日期时间值我正在尝试使用绘制这些时间戳的直方图ggplot2但我有两个问题我不知道如何设置 binwidthgeom histogram 我想将每个垃圾箱设置为一天或一周我尝试提供 di
R从列表中提取数据框，列名中没有前缀

我在列表中放置了一个数据框然后当尝试将其提取回来时我得到了该数据帧的所有以列表键为前缀的列名称有没有办法完全按照最初传递的方式提取数据帧 cols lt c column1 Column2 Column3 df1 lt data f
R 中的 NA 替换函数

我正在尝试替换矩阵中的 NA mat 零我在用着mat is na mat lt 0 当我有 18946 个变量的 94531 个观察值或更小的矩阵时效果很好但我在 22752 个变量的 112039 个观察值的矩阵上尝试它 R 显示
分离并重新附加“tools:rstudio”

又名玩火以下不起作用 rstd obj lt as environment tools rstudio detach tools rstudio attach rstd obj name tools rstudio 好吧它似乎有效但随
将值替换为其各自列的名称

我有一个数据框 Code 401k CVS 101A true 231N true FD54 true 99JB 85F4 true 我试图用相应的列名称例如 401k 替换 true 字符值这是我想要的输出 Code 401k CVS
将列表中的列转换为 R 中的数据框

我有使用 R 创建的以下列表 set seed 326581 X1 rnorm 10 0 1 Y1 rnorm 10 0 2 data data frame X1 Y1 lst lt replicate 100 df smpl lt dat
R 中的发散积分可在 Wolfram 中求解

我知道我以前问过同样的问题但由于我是新来的这个问题问得不好而且不可重现因此我在这里尝试做得更好如果我只编辑旧的可能没有人会读它我有一个想要积分的二重积分 ff lt function g t exp 16 g exp 8 t t
R：将 readRDS 应用于 .Rds 文件名的列表对象

我有几个包含数据帧对象的 Rds 文件我想对每个文件应用一个函数并将数据帧绑定到单个数据帧中但是当我尝试从文件名列表中读取多个 Rds 文件时我收到错误 FUN X i 中的错误从连接读取时出错 readRDS 不适用于列表吗 R
从 R 中的 HTTPS 连接逐行读取

当创建连接时open r 它允许逐行读取这对于批量处理大数据流非常有用例如这个脚本 https gist github com jeroenooms d33a24958d99bb969ac0通过一次读取 100 行来解析相当大的 gzi
将 VLMC 拟合到很长的序列

我正在尝试将 VLMC 拟合到最长序列为 296 个状态的数据集我这样做如下所示 Load libraries library PST library RCurl library TraMineR Load and transform d
如何更改 Shiny 中 navbarPage 折叠的断点

我想用shiny navbarPage collapsible TRUE 当在小屏幕上查看我的 Shiny 应用程序时将导航元素折叠到菜单中默认情况下当浏览器宽度小于 940 像素时会触发折叠有什么方法可以改变这一点以便在稍大的浏
逻辑回归/二项式的 glmnet 误差

当尝试将 glmnet 与 family binomial 配合以进行逻辑回归拟合时出现此错误 gt data lt read csv DAFMM HE16 matrix csv header F gt x lt as data fram
仅保留百分比的尾随零

给出以下示例 library pander tableAbs lt Titanic 1 1 tablePct lt round prop table tableAbs 100 2 table lt cbind tableAbs tableP
jquery datatable ajax 无数据可用 mvc

我有一张桌子是在 document ready功能我还使用 jQuery DataTables 插件由于某种原因当页面加载时 ajax 调用控制器并返回数据并将其设置为我的网格所有获取的数据但是尽管所有数据都加载到数据表中但仍获取
使用 R 进行项目组织 [重复]

这个问题在这里已经有答案了可能的重复统计分析和报告撰写的工作流程 https stackoverflow com questions 1429907 workflow for statistical analysis and repor
带 R 的多彩标题

我想添加颜色某些词在我的图表标题中我已经能够在这里找到一些先例 http blog revolutionanalytics com 2009 01 multicolor text in r html 具体来说我希望用撇号括起来的文本在
ggplot散点图中的图例问题

我想使用 ggplot 创建显示方法比较数据的散点图绘图应包含原始数据理想线和带误差的拟合线图例应显示理想线和拟合线的线型线宽线颜色我可以获得大部分我想要的东西但是图例存在以下问题图例显示每种线型有 2 条线为什么如何解
如何在R中同时对三个字段进行网络分析

如何在 R 中同时对三个字段进行网络分析下面是示例数据以及desired output在最后一栏中 df lt data frame stringsAsFactors FALSE id 1 c ABC ABC BCD CDE DEF EF
为什么 geom_boxplot 比基本箱线图识别更多异常值？

这是一个可重复的示例与基本箱线图相比最后一个治疗组又发现了一个异常值 dta lt structure list Treatment c A A A A A A A A A A A A A A A A B B B B B B B B B

随机推荐

如何在pyodbc中使用executemany运行多个SELECT查询

我使用 PYODBC 根据 pandas 数据帧列的值多次查询 SQL DB 如下所示为值列表因为我使用 ToList 函数将该列转换为列表 the connection string cnxn pyodbc connect driver
扫描随机数量的浮点数，直到 C 中出现新行

我正在尝试从包含以下文本的文件中读取 502 601 596 465 464597 599 600 598602 591 596 601588 565 548 260 62 61 595583 595 61 558 561237 241 4
分析 C# 中的方法以了解其运行时间

我需要获取计时报告以了解在类中运行 C 方法需要多长时间我考虑使用profiler要做到这一点输入是类中方法的名称输出是什么方法类调用这个方法运行该方法的时间量有哪些工具商业产品可用于 Visual Studio 2010
在 TypoScript 中获取 FlexForm 配置

我需要从 pi flexform 获取 typescript 中的 page headerData 如何实现我的要求 page PAGE page headerData 10 TEXT 10 value 我不太确定你真正需要什么我是gue
SlidingDrawer 动画速度

我是 Android 编程和堆栈溢出的新手我需要减慢应用程序中 SlidingDrawer 的动画速度我已经像这样子类化了 SlidingDrawer import android content Context import andr
最大化两个数组元素的乘积之和的算法

竞赛中有一个问题需要计算仅包含数学和生物科目的班级的表现所以没有数学学生 n 没有的生物学生每个学生都有一个单独的分数数学学生和生物学生的分数分别存储在数组 mathScore 和 bioScore 中全班成绩计算如下 mat
从存储过程填充 DataGridView

我使用 SQL Server 2008 创建了一个名为 MyStoreProc 的存储过程它在管理工具中运行良好在 VB Net 2008 中我创建了一个新的数据集和一个新的 TableAdaptor 在此表适配器中我创建了一个名为
如何从树状数组创建 ul - li 菜单？

我有一个数组title and children index title始终不为空 children是一个数组空或非空 Any children have title and children等等 myArray 0 gt title g
JTable右键复制/粘贴菜单一键复制单元格数据

我创建了我的JPopupMenu 它出现在我的JTable当我右键单击一个单元格时但是我无法复制单元格中的数据除非我首先双击然后突出显示数据然后右键单击当前单元格以外的任何位置以显示弹出菜单和复制选项我想复制单元格中的数据而不必
Perl - 子例程“Hash::Merge::merge”的深度递归

下列的this问题我在那里使用了答案也发布在这里现在我失败了我知道失败可能来自于 return bless self gt merge left right class left 但我不明白可能是什么问题 My code usr b
使用 Windows 服务和 SQL Server 在 OneWay WCF 消息中排队

我需要为 WCF 服务请求实现一个排队机制该服务将由客户端以单向方式调用这些请求消息应存储在 SQL Server 数据库中并且 Windows 服务对消息进行排队处理请求的时间是可配置的如果处理消息时发生错误则需要重试最多10
MySQL 5.7 错误（1093：您无法在 FROM 子句中指定目标表 ___ 进行更新） - 通常的解决方案不起作用

我有一个表员工我试图将一些属性例如薪水设置为与表中其他值相同的值我对这个错误的理解是可以通过以下解决方法来避免它使用临时表 UPDATE employees SET salary SELECT salary FROM SELE
当使用非虚拟析构函数“删除”基类时，Clang 和 GCC 会做什么？

已经有一个问题询问现实世界的行为delete指向缺少虚拟析构函数的基类的指针但问题仅限于非常有限的情况派生类没有具有非平凡析构函数的成员并且接受的答案只是说没有办法知道不检查每个编译器的行为但这实际上并不是很有帮助知道每个编译
authorize.net json返回额外字符

我有这个代码 ch curl init curl setopt ch CURLOPT URL url curl setopt ch CURLOPT RETURNTRANSFER 1 curl setopt ch CURLOPT HTTPHE
Laravel 5 如何在保存时验证每个活动下的唯一客户名称

我有三个模型活动模型客户模型和客户项目模型如何在商店功能中进行验证检查使每个活动中的客户名称应该是唯一的以下是每个迁移文件活动模型 public function up Schema create activities func
Angular Material 6 中用于自动完成的无限滚动

我正在尝试在 Angular Material 6 中实现自动完成的无限滚动我的场景很简单我有一个启用了自动完成功能的输入字段当用户键入时我将使用输入字段中的文本进行 HTTP 调用以将结果显示为建议但我只想显示 25 条建议
禁用优化后，演示代码未能显示出 4 倍快的 SIMD 速度

我试图了解使用 SIMD 矢量化的好处并编写了一个简单的演示代码以了解利用矢量化 SIMD 的算法相对于其他算法的速度增益这是2种算法 Alg A 无矢量支持 include
让 Java 通过 HTTPS 接受所有证书

我正在尝试让 Java 接受所有通过 HTTPS 的证书这是出于测试目的在我收到证书未找到错误之前但是在我的代码之前添加以下代码后我得到了HTTPS hostname wrong should be
X.509 数字签名/加密工作流程/库建议？

我的具体用例是我必须访问存储在客户端上的数字证书并使用它们在客户端和服务器端执行签名验证加密和解密的任务对于后一部分解决方案有很多很多症结在于访问客户端上存储的证书的能力请注意我说的是存储在客户端上的证书这是故意含糊其
如何在每个组内创建滞后变量？

我有一个数据表 require data table set seed 1 data lt data table time c 1 3 1 4 groups c rep c b a c 3 4 value rnorm 7 data grou

如何在每个组内创建滞后变量？

Update

data

如何在每个组内创建滞后变量？ 的相关文章

随机推荐

热门标签

如何在每个组内创建滞后变量？的相关文章