数据表|组内更快的逐行递归更新

2024-02-15

我必须执行以下递归逐行操作才能获得z:

myfun = function (xb, a, b) {

z = NULL

for (t in 1:length(xb)) {

    if (t >= 2) { a[t] = b[t-1] + xb[t] }
    z[t] = rnorm(1, mean = a[t])
    b[t] = a[t] + z[t]

}

return(z)

}

set.seed(1)

n_smpl = 1e6 
ni = 5

id = rep(1:n_smpl, each = ni)

smpl = data.table(id)
smpl[, time := 1:.N, by = id]

a_init = 1; b_init = 1
smpl[, ':=' (a = a_init, b = b_init)]
smpl[, xb := (1:.N)*id, by = id]

smpl[, z := myfun(xb, a, b), by = id]

我想获得这样的结果：

      id time a b  xb            z
  1:   1    1 1 1   1    0.3735462
  2:   1    2 1 1   2    2.7470924
  3:   1    3 1 1   3    8.4941848
  4:   1    4 1 1   4   20.9883695
  5:   1    5 1 1   5   46.9767390
 ---                              
496: 100    1 1 1 100    0.3735462
497: 100    2 1 1 200  200.7470924
498: 100    3 1 1 300  701.4941848
499: 100    4 1 1 400 1802.9883695
500: 100    5 1 1 500 4105.9767390

这确实有效，但需要时间：

system.time(smpl[, z := myfun(xb, a, b), by = id])
   user  system elapsed 
 33.646   0.994  34.473

考虑到实际数据的大小（超过 200 万个观察值），我需要加快速度。我猜do.call(myfun, .SD), .SDcols = c('xb', 'a', 'b') with by = .(id, time)会快得多，避免内部的 for 循环myfun。但是，我不确定如何更新b及其滞后（可能使用shift）当我运行这个逐行操作时data.table。有什么建议么？

好问题！

从新的 R 会话开始，显示包含 500 万行的演示数据，这是问题中的函数和我笔记本电脑上的计时。内嵌一些评论。

require(data.table)   # v1.10.0
n_smpl = 1e6
ni = 5
id = rep(1:n_smpl, each = ni)
smpl = data.table(id)
smpl[, time := 1:.N, by = id]
a_init = 1; b_init = 1
smpl[, ':=' (a = a_init, b = b_init)]
smpl[, xb := (1:.N)*id, by = id]

myfun = function (xb, a, b) {

  z = NULL
  # initializes a new length-0 variable

  for (t in 1:length(xb)) {

      if (t >= 2) { a[t] = b[t-1] + xb[t] }
      # if() on every iteration. t==1 could be done before loop

      z[t] = rnorm(1, mean = a[t])
      # z vector is grown by 1 item, each time

      b[t] = a[t] + z[t]
      # assigns to all of b vector when only really b[t-1] is
      # needed on the next iteration 
  }
  return(z)
}

set.seed(1); system.time(smpl[, z := myfun(xb, a, b), by = id][])
   user  system elapsed 
 19.216   0.004  19.212

smpl
              id time a b      xb            z
      1:       1    1 1 1       1 3.735462e-01
      2:       1    2 1 1       2 3.557190e+00
      3:       1    3 1 1       3 9.095107e+00
      4:       1    4 1 1       4 2.462112e+01
      5:       1    5 1 1       5 5.297647e+01
     ---                                      
4999996: 1000000    1 1 1 1000000 1.618913e+00
4999997: 1000000    2 1 1 2000000 2.000000e+06
4999998: 1000000    3 1 1 3000000 7.000003e+06
4999999: 1000000    4 1 1 4000000 1.800001e+07
5000000: 1000000    5 1 1 5000000 4.100001e+07

So 19.2s是时候打败了。在所有这些计时中，我在本地运行了该命令 3 次，以确保其计时稳定。在此任务中，时间差异微不足道，因此我将仅报告一个时间，以使答案能够更快地阅读。

解决上面的内联评论myfun() :

myfun2 = function (xb, a, b) {

  z = numeric(length(xb))
  # allocate size up front rather than growing

  z[1] = rnorm(1, mean=a[1])
  prevb = a[1]+z[1]
  t = 2L
  while(t<=length(xb)) {
    at = prevb + xb[t]
    z[t] = rnorm(1, mean=at)
    prevb = at + z[t]
    t = t+1L
  }
  return(z)
}
set.seed(1); system.time(smpl[, z2 := myfun2(xb, a, b), by = id][])
   user  system elapsed 
 13.212   0.036  13.245 
smpl[,identical(z,z2)]
[1] TRUE

这相当不错（19.2 秒降至 13.2 秒），但它仍然是一个for在 R 级别循环。乍一看它不能矢量化，因为rnorm()调用取决于之前的值。事实上，它可能可以通过使用以下属性进行矢量化：m+sd*rnorm(mean=0,sd=1) == rnorm(mean=m, sd=sd)并调用矢量化rnorm(n=5e6)一次而不是 5e6 次。但可能会有一个cumsum()参与与团体打交道。因此，我们不要去那里，因为这可能会使代码更难阅读，并且会针对这个精确的问题。

那么让我们尝试一下 Rcpp，它看起来与您编写的风格非常相似，并且适用范围更广：

require(Rcpp)   # v0.12.8
cppFunction(
'NumericVector myfun3(IntegerVector xb, NumericVector a, NumericVector b) {
  NumericVector z = NumericVector(xb.length());
  z[0] = R::rnorm(/*mean=*/ a[0], /*sd=*/ 1);
  double prevb = a[0]+z[0];
  int t = 1;
  while (t<xb.length()) {
    double at = prevb + xb[t];
    z[t] = R::rnorm(at, 1);
    prevb = at + z[t];
    t++;
  }
  return z;
}')

set.seed(1); system.time(smpl[, z3 := myfun3(xb, a, b), by = id][])
   user  system elapsed 
  1.800   0.020   1.819 
smpl[,identical(z,z3)]
[1] TRUE

好多了：19.2秒降至1.8秒。但是每次调用该函数都会调用第一行（NumericVector()），它会分配一个与组中的行数一样长的新向量。然后填写并返回，并将其复制到该组正确位置的最后一列（通过:=），仅待发布。所有这 100 万个小型临时向量（每组一个）的分配和管理都有点复杂。

我们为什么不一次性完成整个专栏呢？您已经以 for 循环风格编写了它，这没有任何问题。让我们调整 C 函数以接受id列也并添加if当它到达一个新组时。

cppFunction(
'NumericVector myfun4(IntegerVector id, IntegerVector xb, NumericVector a, NumericVector b) {

  // ** id must be pre-grouped, such as via setkey(DT,id) **

  NumericVector z = NumericVector(id.length());
  int previd = id[0]-1;  // initialize to anything different than id[0]
  for (int i=0; i<id.length(); i++) {
    double prevb;
    if (id[i]!=previd) {
      // first row of new group
      z[i] = R::rnorm(a[i], 1);
      prevb = a[i]+z[i];
      previd = id[i];
    } else {
      // 2nd row of group onwards
      double at = prevb + xb[i];
      z[i] = R::rnorm(at, 1);
      prevb = at + z[i];
    }
  }
  return z;
}')

system.time(setkey(smpl,id))  # ensure grouped by id
   user  system elapsed
  0.028   0.004   0.033
set.seed(1); system.time(smpl[, z4 := myfun4(id, xb, a, b)][])
   user  system elapsed 
  0.232   0.004   0.237 
smpl[,identical(z,z4)]
[1] TRUE

这样更好：19.2秒降至0.27秒.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数据表|组内更快的逐行递归更新的相关文章

正则表达式字符串中第一个和最后一个非点的位置

我希望找到字符串的第一个和最后一个非点元素的位置理想情况下我想这样做regex在基地R 我已经写过R解决问题的代码不过我对一个感兴趣regex解决方案感谢您的任何建议这是一个示例数据集和R代码以获得所需的结果此代码拆分字符串并使
C语言中的递归是如何工作的？

我试图了解 C 中递归的工作原理任何人都可以给我解释控制流吗 include
纵向序列数据的三次样条方法？

我有一个串行数据格式如下 time milk Animal ID 30 25 6 1 31 27 2 1 32 24 4 1 33 17 4 1 34 33 6 1 35 25 4 1 33 29 4 2 34 25 4 2 35 24
使用 pracma::findpeaks 识别持续峰值

我的语法有问题peakpat内的选项findpeaks内的函数pramcaR 包 v 2 1 1 我使用的是 R 3 4 3 x64 Windows 我希望该函数能够识别可能有两个重复值的峰值并且我相信该选项peakpat这就是我能做到的
如何使用 usmap 标记数字而不是名称？

我知道 usmap 有一个选项label in plot usmap 我想标记一些数字而不是状态名称我想 usmap 中应该有与州质心坐标相关的数据但我不知道如何找到它如果我能得到坐标然后我可以用它来标记数字geom text 这
将绘图调用拆分为多个块

我正在编写一个图的解释其中我基本上将在第一个块中创建图然后描述该输出并在第二个块中添加一个轴然而似乎每个块都会强制一个新的绘图环境因此当我们尝试使用以下命令运行块时会出现错误axis独自的观察 output html docu
尝试读取 CSV 文件时出现“无法识别的字符串转义”

我正在尝试导入一个 csv文件以便我可以观看此视频 R ggplot2 图形直方图 http www youtube com watch v 47kWynt3b6M 我安装了所有正确的软件包包括ggplot以及相关的包视频中的第一个说
在 R 格子包中微调点图

我正在尝试为不同的数据集和不同的算法绘制一堆 ROC 区域我有三个变量方案指定所使用的算法数据集是正在测试算法的数据集以及 Area under ROC 我正在 R 中使用lattice库命令如下点图方案 Area und
将每列的值乘以 R 中另一个 data.frame 中的权重

我有两个data frames df and weights 代码如下 df看起来像这样 id a b d EE f 1 this 0 23421153 0 02324956 0 5457353 0 73068586 0 5642554 2
相当于 min() 的 rowMeans()

我在 R 邮件列表上多次看到这个问题但仍然找不到满意的答案假设我有一个矩阵m m lt matrix rnorm 10000000 ncol 10 我可以通过以下方式获得每行的平均值 system time rowMeans m use
如何仅删除单括号并保留配对的括号

你好我亲爱的老师 R 用户朋友们我最近开始认真学习正则表达式最近我遇到了一种情况我们只想保留配对括号并省略未配对的这是我的样本数据 structure list t1 c Book Pg 1 Website Online Jou
如何在 R 中匹配多个 ggplot2 图中的调色板？

自从被问到这个问题以来已经有一段时间了但我知道一个事实我很快就会提取新数据我想弄清楚如何用这种技术来绘制它看起来评论和答案中的人知道如何做到这一点但我无法完全弄清楚所给我的内容还有人想尝试一下吗我正在尝试使用具有多个级别的因子
使用 ggmap 截断密度多边形

我在使用 R ggmap 绘制密度图时遇到问题我的数据如下所示 gt head W date lat lon dist 1 2010 01 01 31 942 86 659 292 415 2 2010 01 10 32 970 84 1
纵向比较 R 中的值...并进行扭转

我有许多人在多达四个时间段进行的测试结果这是一个示例 dat lt structure list Participant ID c A A A A B B B B C C C C phase structure c 1L 2L 3L 4L
R：如何获取该月的周数

我是 R 新手我想要该日期所属月份的周数通过使用以下代码 gt CurrentDate lt Sys Date gt Week Number lt format CurrentDate format U gt Week Number 3
python 相当于 R 中的 get() （= 使用字符串检索符号的值）

在 R 中 get s 函数检索名称存储在字符变量向量中的符号的值s e g X lt 10 r lt XVI s lt substr r 1 1 X get s 10 取罗马数字的第一个符号r并将其转换为其等效整数尽管花了一些时间翻
任意列中包含字符串的子集行

我有一个如下所示的数据集 Col1 Col2 Col3 abckel NA 7 jdmelw njabc NA 8 jdken jdne 如何对数据集进行子集化使其仅保留包含字符串 abc 的行最终预期输出 Col1 Col2 Col3
如何绘制具有显着性水平的箱线图？

前段时间问了一个关于绘制箱线图的问题Link1 https stackoverflow com questions 14604439 plot multiple boxplot in one graph 我有一些包含 3 个不同组或标签
麦当劳 omega：R 中的警告

我正在计算几种不同尺度的欧米茄并在 R 中使用不同的 omega 函数获取不同比例的不同警告消息我的问题是如何解释这些警告以及报告检索到的 omega 统计数据是否安全当我使用从 alpha 到 omega 内部一致性估计普遍问题的
如何将plot中的单变量列表图表转换为ggplot2格式？

我正在搜索但仍然找不到一个非常简单的问题的答案我们如何使用 R 中的 ggplot2 生成一个变量的简单线图我正在分析时间序列数据并且想要对图表进行更复杂的操作我认为如果我使用 ggplot2 代替会更好plot It works

随机推荐

Tomcat 7 - 在运行时获取应用程序名称，无需通过java-agent/aspectj登录

我正在尝试获取所有已部署应用程序的列表特别是映射到 tomcat root 的应用程序名称我希望能够在运行时使用 java 代理来收集 tomcat 服务器上的信息我尝试使用这个代码示例 private Iterable
R CMD 检查不尊重 knit 代码块中的选择性代码评估

我正在构建一个包R 3 1 0 on Windows7 32 位以及运行 Windows 8 64 位的另一台机器上我正在使用knitr使用 Markdown 编写小插图我希望在 CRAN 上发布这个包所以我使用 R CMD 检查来
用纯 C 在 atmega328 上设置中断

我目前正在开发 Arduino Uno 板并尝试用纯粹的语言编写它C无需使用 Arduino 的库我正在工作的项目应该像这样工作设置 LEDPB0 to BP7 ON and OFF 在连接到按钮的 PD2 上设置中断按下按钮时 L
MaximumSelectionSize 在 Select2 中不起作用

我有一个多值选择我想使用select2图书馆文档 http select2 github io select2 maximumSelectionSize说我应该设置maximumSelectionSize在对象初始化期间不幸的是下面
如何在 C# 中监视剪贴板更改？

是否有我可以通过 C 访问的剪贴板更改或更新事件为了完整起见这是我在生产代码中使用的控件只需从设计器中拖动并双击即可创建事件处理程序 using System using System ComponentModel using Sys
Angularjs：如何使用 ng Mousedown ng Mouseup

是否可以使用 ngMousedown 将类添加到 div 并使用 ngMouseup 再次删除类目前我使用ng mousedown activateClass 在 activateClass 中更改 scope className 数据活
如何从 ruby 脚本引用本地 gem？

我需要从普通的 ruby 脚本引用本地 gem 而不安装 gem 追寻着如何在 ruby 中引用本地宝石 https stackoverflow com questions 6444827 how to refer a local gem
在闪亮的表格中嵌入链接

我想用闪亮的形式创建一个表格以便表格的每个元素都是指向新页面的超链接但新页面由闪亮创建知道单击了哪个单元格例如我单击单元格 i j 这会将我带到一个新页面其中包含基于我选择的 i 和 j 值的绘图我可以使用 php 和或
Facebook 和 Google+ 登录

我在我的应用程序中同时使用 Google 和 Facebook 我的问题是它们都需要 appDelegate 中的 OpenURL 方法对于 Facebook 登录 func application application UIAppli
for() 函数中的“:”

我正在做一项涉及董事会的作业给出了基础代码供我们修改但我不明白其中的内容在 for 方法的参数中它是否通过了所有的板子 ArrayList private ArrayList
如何查找函数所有 **args 的列表？

我怎样才能找到所有的列表 args一个函数的例如我知道symbols take positive True real True等作为参数我想查看这些可能参数的完整列表但是它们没有列在 Sympy Core 中doc page ht
在cuda中定义模板化常量变量

如何在中实现模板化常量变量cuda 我有一个struct template
std::less 和指针类型

std less
Action On Google，带有 actions.intent.NEW_SURFACE 的 webhook 响应

尝试在 Webhook 响应中实现 NEW SURFACE Google Assistant 语音调用 Dialogflow 调用 Webhook 当我具有网络浏览器功能时我会显示我的卡片但当用户来自 Google Home 时我何时
错误：数据库正在被其他用户访问详细信息：还有 24 个其他会话正在使用该数据库

我正在尝试删除数据库但是当我尝试删除它时出现以下错误错误数据库 mydb 正在被其他用户访问详细信息还有 24 个其他会话正在使用该数据库我只想删除它以便可以从备份中恢复它基于另一个线程我尝试了这个 REVOKE CONNE
Java中如何连接两个字符串数组

我正在使用 JDK 1 7 和 Eclipse 并尝试连接两个字符串数组 String a1 a12 b12 String a2 c12 d23 ewe fdfsd 我努力了 String both ObjectArrays concat
java中如何从数组中随机生成唯一的数字

我想随机生成一个数组中的数字每个数字也应该是唯一的我给出了这段代码请帮我请不要建议数组列表因为我正在为黑莓应用程序构建黑莓API不支持数组列表或集合或哈希集因此请建议我仅在这段代码中使用数组 Random rgen new Ra
Spring中的BeanPostProcessor和init/destroy方法有什么区别？

实施与实施有什么区别BeanPostProcessor接口并使用init destroySpring中XML配置文件中的方法属性或实现InitializingBean DisposableBean界面 Spring 文档对此有非常清楚的解释
正则表达式不会产生错误回显，有人可以帮助我吗？

当字段不正确时正则表达式不会产生错误回显除此之外我得到警告 preg match function preg match 编译失败缺少在第 58 行的偏移 12 处任何人都可以帮助我吗我非常绝望 array array erro
数据表|组内更快的逐行递归更新

我必须执行以下递归逐行操作才能获得z myfun function xb a b z NULL for t in 1 length xb if t gt 2 a t b t 1 xb t z t rnorm 1 mean a t b t a

数据表|组内更快的逐行递归更新

数据表|组内更快的逐行递归更新 的相关文章

随机推荐

热门标签

数据表|组内更快的逐行递归更新的相关文章