R：data.table 与 merge(aggregate()) 性能

2024-05-27

或者更一般地说，它是DT[,.SD[...],by=...] versus merge(aggregate(...)).

话不多说，这里是数据和示例：

set.seed(5141)
size = 1e6
df <- data.table(a = rnorm(size),
                 b = paste0(sample(letters, size, T), 
                            sample(letters, size, T), 
                            sample(letters, size, T)),
                 c = sample(1:(size/10), size, T),
                 d = sample(seq.Date(as.Date("2015-01-01"), 
                                     as.Date("2015-05-31"), by="day"), size, T))

system.time(df[,.SD[d == max(d)], by = c])
# user  system elapsed 
# 50.89    0.00   51.00 
system.time(merge(aggregate(d ~ c, data = df, max), df))
# user  system elapsed 
# 18.24    0.20   18.45

通常没有问题data.table性能，我对这个特殊的例子感到惊讶。我必须通过仅获取某些事件类型的最新（可以是同时）发生的事件来对相当大的数据帧进行子集（聚合）。并保留这些特定事件的其余相关数据。然而，似乎.SD在此特定应用程序中不能很好地扩展。

有没有更好的“数据表方式”来处理此类任务？

我们可以用.I获取行索引并根据该索引对行进行子集化。应该会更快。

system.time(df[df[,.I[d == max(d)], by = c]$V1])
#    user  system elapsed 
#   5.00    0.09    5.30

@Heroka的解决方案

system.time(df[,is_max:=d==max(d), by = c][is_max==T,])
#   user  system elapsed 
#  5.06    0.00    5.12

The aggregate我的机器上的方法给出

system.time(merge(aggregate(d ~ c, data = df, max), df))
#   user  system elapsed 
#  48.62    1.00   50.76

与.SD option

system.time(df[,.SD[d == max(d)], by = c])
#   user  system elapsed 
# 151.13    0.40  156.57

使用data.table join

system.time(df[df[, list(d=max(d)) , c], on=c('c', 'd')])
#   user  system elapsed 
#   0.58    0.01    0.60

如果我们看一下之间的比较merge/aggregate和==，它们是不同的函数。通常，aggregate/merge与相应的 join 相比，方法会更慢data.table。但是，我们正在使用==比较每一行（需要一些时间）.SD用于子集化（与.I用于行索引）。这.SD还有开销[.data.table.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dataTable

R：data.table 与 merge(aggregate()) 性能的相关文章

如何计算R中移动窗口内的平均斜率

我的数据集包含2个变量y 和 t 05s y 每 05 秒测量一次我正在尝试计算移动中的平均坡度20秒窗口即计算第一个 20 秒斜率值后窗口向前移动一个时间单位 05 秒并计算下一个 20 秒窗口在以下位置生成连续 20 秒斜率值
如何使用 R 计算成为列表中中位数的概率？

假设我有以下数据集其中显示了假设实验的每个状态的三个观察结果的列表 state lt c Iowa Minnesota Illinois outcome lt list c 5 11 11 c 3 12 8 c 9 14 2 dat lt
通过间接引用列来修改数据框中的某些值

我正在整理一些数据我们将失败的数据分类到垃圾箱中并按批次计算每个分类箱的有限产量我有一个描述排序箱的元表这些行按升序测试顺序排列一些排序标签带有非语法名称 sort tbl lt tibble tribble weight lab
如何使用 usmap 标记数字而不是名称？

我知道 usmap 有一个选项label in plot usmap 我想标记一些数字而不是状态名称我想 usmap 中应该有与州质心坐标相关的数据但我不知道如何找到它如果我能得到坐标然后我可以用它来标记数字geom text 这
Dendextend：关于如何根据定义的组为树状图的标签着色

我正在尝试使用一个名为 dendextend 的很棒的 R 包来绘制树状图并根据一组先前定义的组为其分支和标签着色我已阅读您在 Stack Overflow 中的答案以及 dendextend vignette 的常见问题解答但我仍然不
在 R 格子包中微调点图

我正在尝试为不同的数据集和不同的算法绘制一堆 ROC 区域我有三个变量方案指定所使用的算法数据集是正在测试算法的数据集以及 Area under ROC 我正在 R 中使用lattice库命令如下点图方案 Area und
只读取选定的列

谁能告诉我如何仅读取下面每年数据的前 6 个月 7 列例如使用read table Year Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2009 41 27 25 31 31 39 2
ddply 和aggregate 之间的区别

有人可以通过以下示例帮助我了解聚合和 ddply 之间的区别数据框 mydat lt data frame first rpois 10 10 second rpois 10 10 third rpois 10 10 group c re
将阴影区域添加到五分位数之间的直方图中

All 我有一个包含 2 个直方图的图表其中我还绘制了代表第 20 40 60 和 80 个百分位数的线条下面的代码使用虚拟数据重现了类似的图表 data lt rbind data frame x rnorm 1000 0 1 g o
相当于 min() 的 rowMeans()

我在 R 邮件列表上多次看到这个问题但仍然找不到满意的答案假设我有一个矩阵m m lt matrix rnorm 10000000 ncol 10 我可以通过以下方式获得每行的平均值 system time rowMeans m use
如何仅删除单括号并保留配对的括号

你好我亲爱的老师 R 用户朋友们我最近开始认真学习正则表达式最近我遇到了一种情况我们只想保留配对括号并省略未配对的这是我的样本数据 structure list t1 c Book Pg 1 Website Online Jou
所有 x 轴标签未以 45 度显示

I m having the code as like below But I m not getting all the x axis labels and it is not displaying in 45 degree when I
如何从 R 中的 txt 文件读取矩阵？

我有一个带有矩阵的txt文件 Matrix txt 重要数字之间没有空格 0100 1001 1100 我想在 R 中将其作为矩阵读取我该怎么做我尝试使用 as matrix read table Matrix txt sep 但失败
ggplot2：如何标记事件发生的日期

我想从第二个情节中获取第一个情节的信息第二张图表示事件发生的天数它看起来更宽因为它没有图例但它是相同的时间尺度我选择在第一个图中手动分配颜色 I would like to overlay the second plot dots
将不均匀的层次列表转换为数据框

我认为还没有有人问过这个问题但是有没有一种方法可以将具有多个级别和不均匀结构的列表的信息组合成长格式的数据帧具体来说 library XML library plyr xml inning lt http gd2 mlb com c
read_html(url) 和 read_html(content(GET(url), "text")) 之间的区别

我正在看这个很棒的答案 https stackoverflow com a 58211397 3502164 https stackoverflow com a 58211397 3502164 解决方案的开头包括 library httr
条件字体颜色 R Markdown

我无法找到一种方法来根据变量的值 gt 0 0 或 r setup include FALSE x lt 4 This is an R Markdown document r if x gt 0 textcolor red Markdown
闭包作为数据合并习惯的解决方案

我正在尝试解决闭包问题而且我think我发现了一个案例他们可能会有所帮助我有以下几部分需要处理一组正则表达式旨在清理状态名称位于函数中具有州名称上述函数创建的标准化形式和州 ID 代码的 data frame 用于链接两者
在 Shiny 中的用户会话之间共享反应数据集

我有一个相当大的反应数据集该数据集是通过轮询文件然后按预定义的时间间隔读取该文件而派生的数据更新频繁需要不断重新加载诚然重新加载可以增量完成并附加到 R 中的现有对象但事实并非如此然而目前尽管会话中的数据相同但此操作是针对
线性判别分析图

如何将样本 ID 行号作为标签添加到此 LDA 图中的每个点 library MASS ldaobject lt lda Species data iris plot ldaobject panel function x y points

随机推荐

ConnectionError [客户端（在 VirtualBox 上）和服务器（在 localhost 上）] - 我在虚拟机上使用仅主机设置

我有一个使用 CORBA 的简单计算 C Java 应用程序服务器是用C 编写的客户端是用Java编写的我使用omniORBomniNames 作为名称服务我想在我的本地主机 Ubuntu 上运行我的omniNames 和服务器并
键值对作为控制台应用程序中的参数

有没有一种简单的方法可以允许键值对都是字符串的集合作为控制台应用程序的命令行参数如果您的意思是有一个如下所示的命令行 c gt YourProgram exe switch1 value1 switch2 value2 这可以在启动
在 ASP.NET Core 中使用防伪功能并出现错误 - 防伪令牌无法解密

我的 ASP Net Core MVC 应用程序已添加防伪中间件如下启动 cs services AddMvc services AddSession services AddCaching services AddSession o g
使用带有通配符的 jquery grep 搜索对象数组

我正在使用 jquery grep 搜索对象数组并希望在搜索中包含通配符例如我有一个数组如下 courses code ENCH3TH otherFields otherStuff code ENCH3THHS1 otherField
SwiftUI 从一个列表拖动到另一个列表

我正在尝试在列表之间拖放我尝试过的我找到了一个在 UIKIt 中执行此操作并使用 UIViewControllerRepresentable 的解决方案但这不是我想要的另一个解决方案是在列表上使用 onDrag 但这在 iPad 上
对 id 属性使用自定义类型

我有以下课程 public class UserId public UserId int id some validation public override string ToString public class User public
对齐 emacs lisp 中的正则表达式

我正在尝试使用以下 elisp 函数来对齐文本 defun align Align lines by interactive align regexp region beginning region end 我正在尝试对齐以下文本 offe
有没有办法确定 Firebug 或 Web Inspector 中发出 XHR 的行？

有没有办法确定 Firebug 或 Web Inspector 可能是 Opera Dragonfly IE 开发人员工具栏中发出 XHR 的行和文件名如果没有找出答案的最佳方法是什么只是在代码库中搜索调用的 URI 不过通常它会
获取路由查询参数

我正在尝试从 rc1 迁移到 rc4 但在获取查询字符串参数时遇到问题 ActivatedRoute 对象始终为空英雄组件 ts import Component OnInit from angular core import Contr
使用 boto3 和 ftplib 将文件从 FTP 复制到 S3 存储桶失败，并显示“500 语法错误，命令无法识别”

我需要将数据从 FTP 服务器发送到 S3 存储桶而不将文件保存到本地驱动器在互联网上我发现我们可以使用io BytesIO 作为缓冲区但我的代码失败了 error perm 500 语法错误命令无法识别剧本 ftp ftpli
在 UWP 中拖放到银行帐户列表中

我有一个本地银行的通用 Windows 应用程序我正在处理汇款视图他们需要使用 UWP 应用程序中的拖放功能将资金从一个帐户转移到另一个帐户我已经制作了动画部分但在将列表项拖放到帐户至列表后需要帮助 I ll attach a
查找关联数组中最小值的键

在 PHP 中假设您有一个如下所示的关联数组 pets array cats gt 1 dogs gt 2 fish gt 3 我如何找到具有最低值的密钥在这里我要寻找cats 是否有一些我错过的内置 PHP 函数可以实现此目的如果
帧缓冲区/颜色缓冲区？

有人可以指出我两者是否相同吗我的意思是我一直在阅读有关它的信息这里的红皮书说颜色缓冲区本身可以由多个子缓冲区组成系统上的帧缓冲区包含所有这些缓冲区 here http glprogramming com red chapter10
打印从 1 到 100 的质数

此 C 代码打印出以下素数 3 5 7 11 13 17 19 23 29 31 37 41 43 47 53 59 61 67 71 73 79 83 89 97 但我不认为这就是我的书所希望的写作方式它提到了一些关于数字的平方根的内容
对象数组的 JSON 模式定义

我见过这个其他问题 https stackoverflow com q 10809459 940217但它并不完全相同我觉得我的问题更简单但就是不起作用我的数据如下所示 loc a value 1 toll null message
检测 Web MIDI API 中是否连接了 MIDI 接口

我正在 Chrome OS X 中试验 Web Midi API 到目前为止我得到了很好的结果但我想知道有没有办法在应用程序运行时检测 MIDI 接口是否连接断开目前的工作方式是重新启动浏览器让应用程序知道界面是否存在似乎有一
C++ 是否允许函数的默认返回类型？

在 C 语言中以下恐怖行为是有效的 myFunc return 42 return type defaults to int 但是在 C 中呢我无论如何都找不到它的参考我的编译器 Codegear C Builder 2007 目前
Android SyncAdapter 回调

我已经按照 SDK 中的 SimpleSyncAdapter 示例项目的思路实现了 SyncAdapter AccountManager 和私有 ContentProvider 一切都运转良好现在当从远程服务器下载了设置了特定标志的新行
Python dateutil 解析器失败

我正在尝试解析从电子邮件标头获取的以下日期字符串 from dateutil import parser d1 parser parse Tue 28 Jun 2011 01 46 52 0200 d2 parser parse Mon 1
R：data.table 与 merge(aggregate()) 性能

或者更一般地说它是DT SD by versus merge aggregate 话不多说这里是数据和示例 set seed 5141 size 1e6 df lt data table a rnorm size b paste0 sa

R：data.table 与 merge(aggregate()) 性能

R：data.table 与 merge(aggregate()) 性能 的相关文章

随机推荐

热门标签

R：data.table 与 merge(aggregate()) 性能的相关文章