为什么 sapply 的缩放速度比样本大小的 for 循环慢？

2024-05-19

假设我想采用向量 X = 2*1:N 并将 e 计算为每个元素的指数。（是的，我认识到最好的方法就是通过向量化 exp(X)，但这样做的目的是将 for 循环与 sapply 进行比较）。我通过逐步尝试三种方法（一种使用 for 循环，两种以不同方式应用 sapply）使用不同的样本大小并测量相应的时间来进行测试。然后，我绘制了每种方法的样本量 N 与时间 t 的关系。

每种方法都用“######”表示。

k <- 20 
t1 <- rep(0,k) 
t2 <- rep(0,k)
t3 <- rep(0,k)
L <- round(10^seq(4,7,length=k))


for (i in 1:k) {
  X <- 2*1:L[i]
  Y1 <- rep(0,L[i])
  t <- system.time(for (j in 1:L[i]) Y1[j] <- exp(X[j]))[3] #####
  t1[i] <- t
}

for (i in 1:k) {
  X <- 2*1:L[i]
  t <- system.time( Y2 <- sapply(1:L[i], function(q) exp(X[q])) )[3] #####
  t2[i] <- t
}

for (i in 1:k) {
  X <- 2*1:L[i]
  t <- system.time( Y3 <- sapply(X, function(x) exp(x)) )[3] #####
  t3[i] <- t
}

plot(L, t3, type='l', col='green')
lines(L, t2,col='red')
lines(L, t1,col='blue')

plot(log(L), log(t1), type='l', col='blue')
lines(log(L), log(t2),col='red')
lines(log(L), log(t3), col='green')

We get the following results. Plot of N vs t: enter image description here

Plot of log(N) vs log(t) enter image description here

蓝色图是 for 循环方法，红色和绿色图是 sapply 方法。在常规图中，您可以看到，随着样本量变大，for 循环方法比 sapply 方法更受青睐，这根本不是我所期望的。如果您查看双对数图（为了更容易区分较小的 N 结果），我们会发现 sapply 的预期结果比小 N 的 for 循环更有效。

有谁知道为什么 sapply 的缩放速度比样本大小的 for 循环慢？谢谢。

您没有考虑为结果向量分配空间所需的时间Y1。随着样本量的增加，分配所需的时间Y1执行时间中所占的份额较大，而替换所花费的时间所占的份额较小。

sapply总是为结果分配内存，因此这就是随着样本大小的增加而效率降低的原因之一。gagolews https://stackoverflow.com/questions/26430571/why-does-sapply-scale-slower-than-for-loop-with-sample-size/26430837#comment41506566_26430571还有一个很好的观点sapply呼叫simplify2array。这（可能）会添加另一个副本。

经过更多测试后，看起来像lapply随着对象变大，它仍然与包含 for 循环的字节编译函数大致相同或更慢。我不知道如何解释这一点，除了可能的这一行do_lapply:

if (MAYBE_REFERENCED(tmp)) tmp = lazy_duplicate(tmp);

或者可能有什么方法lapply构造函数调用...但我主要是猜测。

这是我用来测试的代码：

k <- 20 
t1 <- rep(0,k) 
t2 <- rep(0,k)
t3 <- rep(0,k)
L <- round(10^seq(4,7,length=k))
L <- round(10^seq(4,6,length=k))

# put the loop in a function
fun <- function(X, L) {
  Y1 <- rep(0,L)
  for (j in 1:L)
    Y1[j] <- exp(X[j])
  Y1
}
# for loops often benefit from compiling
library(compiler)
cfun <- cmpfun(fun)

for (i in 1:k) {
  X <- 2*1:L[i]
  t1[i] <- system.time( Y1 <- fun(X, L[i]) )[3]
}
for (i in 1:k) {
  X <- 2*1:L[i]
  t2[i] <- system.time( Y2 <- cfun(X, L[i]) )[3]
}
for (i in 1:k) {
  X <- 2*1:L[i]
  t3[i] <- system.time( Y3 <- lapply(X, exp) )[3]
}
identical(Y1, Y2)          # TRUE
identical(Y1, unlist(Y3))  # TRUE
plot(L, t1, type='l', col='blue', log="xy", ylim=range(t1,t2,t3))
lines(L, t2, col='red')
lines(L, t3, col='green')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

benchmarking

为什么 sapply 的缩放速度比样本大小的 for 循环慢？的相关文章

将列表中的列转换为 R 中的数据框

我有使用 R 创建的以下列表 set seed 326581 X1 rnorm 10 0 1 Y1 rnorm 10 0 2 data data frame X1 Y1 lst lt replicate 100 df smpl lt dat
如何更新条件公式？

让我直接进入示例考虑以下等式 frml lt formula y a b x z 使用这样的公式规范例如和AER ivreg 我想更新这个公式使其显示为 frml2 lt y a b c x z w 但是我不确定如何更新条件标志之前
R 中的发散积分可在 Wolfram 中求解

我知道我以前问过同样的问题但由于我是新来的这个问题问得不好而且不可重现因此我在这里尝试做得更好如果我只编辑旧的可能没有人会读它我有一个想要积分的二重积分 ff lt function g t exp 16 g exp 8 t t
从 R 中的 HTTPS 连接逐行读取

当创建连接时open r 它允许逐行读取这对于批量处理大数据流非常有用例如这个脚本 https gist github com jeroenooms d33a24958d99bb969ac0通过一次读取 100 行来解析相当大的 gzi
在另一个 Rmd 中运行选定的块

我已经在源 Rmd 文件中运行了分析并且希望仅使用few来自源的块我已经看到了一些关于从源 Rmd 中提取所有块的答案来自另一个 Rmd 中的 Rmd 文件的源代码 https stackoverflow com questions 4
如何将此“for”循环转换为向量解

这个问题与将嵌入其他文本的长州名称转换为两个字母的州缩写 https stackoverflow com questions 25582518 convert long state names embedded with other te
带 R 的多彩标题

我想添加颜色某些词在我的图表标题中我已经能够在这里找到一些先例 http blog revolutionanalytics com 2009 01 multicolor text in r html 具体来说我希望用撇号括起来的文本在
如何计算嵌套函数中的粘合表达式？

我正在尝试嵌套一个函数该函数将两个字符串粘合在一起该函数使用组合字符串来命名数据帧的列然而问题似乎是粘合表达式没有足够早地评估为字符串我可以并且应该强制在将表达式作为参数传递给另一个函数之前对其进行求值吗 library ti
ggplot散点图中的图例问题

我想使用 ggplot 创建显示方法比较数据的散点图绘图应包含原始数据理想线和带误差的拟合线图例应显示理想线和拟合线的线型线宽线颜色我可以获得大部分我想要的东西但是图例存在以下问题图例显示每种线型有 2 条线为什么如何解
为什么 geom_boxplot 比基本箱线图识别更多异常值？

这是一个可重复的示例与基本箱线图相比最后一个治疗组又发现了一个异常值 dta lt structure list Treatment c A A A A A A A A A A A A A A A A B B B B B B B B B
使用 dplyr::filter 的整洁方式是什么？

使用下面的函数调用foo c b 输出以内联方式显示正确的写作方式是什么df gt filter x gt x 我已经包含了一个使用的示例mutate以整洁的风格与之对比filter foo lt function variables x
单击 R 中的 Sankey Chart 线时添加额外的标签值

以下 R 闪亮脚本创建一个桑基图如下面的快照所示我的要求是当我单击左右节点之间的任何链接即 a1 和 a2 时我希望相应的 a3 的总和出现在标签中例如 a1 中的 A 和 a2 中的 E 总共具有值 50 和 32 因此我想
如何根据两个数据框中最近的日期进行匹配？

假设我有两个数据框例如 set seed 123 df1 lt data frame bmi rnorm 20 25 5 date1 sample seq Date as Date 2014 01 01 as Date 2014 02 2
R - tidyr - 变异并传播多列

我在 R 中有以下数据框 my df test lt data frame V1 c 1 2 1 V2 c A B A V3 c S1 S1 S2 V4 c x x x V5 c y y y V6 c A B C V7 c D E F my
检查单词是否存在于英语词典 r 中

我正在对多个进行一些文本分析resume生成一个wordcloud using wordcloud包装连同tm用于在 R 中预处理文档语料库的包我面临的问题是检查语料库中的单词是否具有某种含义即它属于英语词典如何一起挖掘处理多份
从“parallel”包中的非基础 R 包调用函数，而无需在函数中将它们库化

假设我正在尝试运行以下代码 library gregmisc library parallel myfunction lt function x combinations 10 x 1 10 cl lt makeCluster getOpt
如何匹配R中列之间的多个对应值

我有一个结构如下的数据框 ID Value1 Value2 1 a d g f 12 14 15 9 2 b c e 5 18 20 3 h i j 6 7 25 所以我有一个 ID 和两个值对于值 1 有多个对应于值 2 的选项我想最
ggplot 直方图相对于轴的位置不正确

我试图这样绘制直方图 Todo lo haremos con base en un variable aleatoria Uniforme 0 1 set seed 26 n 10000 U lt runif n n Supongamos
r 谷歌搜索结果计数检索[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案用关键字健康医院搜索谷歌会返回大约 1 150 000 000 个结果如何在 R 中以编程方式获得此计数我见过这个lin ht
根据R中的前一行和当前行按组计算

我可以根据 R 中的前一行和当前行进行计算对于此数据框 df A B 1 2 2 2 2 3 3 4 5 5 B2 A2 0 5 B1 我可以使用这段代码来计算这个函数 for i in 2 nrow df B i lt 1 2 B i

随机推荐

元素“system.webServer”具有无效的子元素“aspNetCore”

我从 Visual Studio 2015 中的模板之一创建了一个新的 ASP NET Core MVC 6 应用程序我正在看的教程说要修改web config文件当我打开该文件时 Visual Studio 会抛出警告严重性代码说
ui 测试 xcode，如何使用 cellquery 点击表视图单元格按钮

我目前正在为我的应用程序进行 ui 测试并一直点击我的应用程序的登录按钮我无法找到我提供了标识符注册按钮的元素该元素是索引中的第三个这不是问题 let cellQuery self app tables cells element
OpenCV VideoWriter 未写入 Output.avi

我正在尝试编写一段简单的代码来获取视频裁剪视频并写入输出文件系统设置 OS Windows 10 Conda Environment Python Version 3 7 OpenCV Version 3 4 2 ffmpeg Vers
将 AutoMapper 从 3 更新为 4，破坏了继承映射

我将 AutoMapper 从 3 3 1 更新到 4 0 4 这破坏了以下映射并显示此消息无法将 Foo 类型的对象转换为 BarDTO 类型 Classes public class FooDTO omitted derived DT
使用 CLI 在 Azure 中上传文件

我正在尝试练习以下任务创建存储帐户 az 存储帐户创建 name heyatafroz25 resource group user fottsascvuzj 获取存储帐户密钥 az 存储帐户密钥列表 g user fottsascvuzj
如何在Linux内核源代码中打印IP地址或MAC地址

我必须通过修改 Linux 内核源代码来稍微改变 TCP 拥塞控制算法但为了检查结果是否正确我需要记录 MAC 或 IP 地址信息我使用 PRINTK 函数来打印内核消息但我感觉很难打印出主机的MAC IP地址 printk pM
使用cheerio 检索href

我有一个下载的 html 文件看起来像这样 div div div div style height 11px color white font size 9px font weight bold div div style border
ORA-12728: 正则表达式中的范围无效

我想检查表中是否插入了有效的电话号码所以我的触发代码在这里 select start index into mob index from gmarg mobile operators where START INDEX substr ne
在 MacOS 10.9 (Mavericks) 上构建 Boost.Python 应用程序

我升级到 Mavericks 经过多次故障排除后现在无法构建我的应用程序在链接过程中我收到错误 Undefined symbols for architecture x86 64 boost python objects functio
错误：缺少 JavaFX 运行时组件，并且需要使用 Gradle 示例来运行此应用程序

我知道这个问题已被问过多次但我似乎找不到解决方案摘自官方指南示例 https openjfx io openjfx docs gradle https openjfx io openjfx docs gradle我继续添加了我的构建 g
将列表中的每个元素转换为数据框中的一列

假设我有以下列表 d library combinat d permn c a b c 这看起来如下 1 1 a b c 2 1 a c b 3 1 c a b 4 1 c b a 5 1 b c a 6 1 b a c 是否可以将此列表的
多个动态滤镜更新闪亮

我希望能够让 UI 输入闪亮并根据用户之前的选择进行自我更新因此在下面的示例中预期的行为是用户选择cyl vsor carb那么这将过滤数据集mtcars用于创建绘图即用户根据过滤条件调整绘图并更新其他过滤器中的剩余输入选择
使用 Cygwin 安装 CPAN GD 模块失败

我已经尝试解决为什么 CPAN GD 模块无法使用 Cygwin 安装 2 天了任何帮助深表感谢谢谢 cpan install GD Going to read home xxxxxxxxxx cpan Metadata Databas
将自定义应用程序设置存储在 XML 中

请帮忙我有这段代码它是我的类来序列化反序列化应用程序设置 XmlRoot EvaStartupData Serializable public class MyConfigClass public string ServerName
SQL Server 2008。允许远程连接吗？

我在 Windows XP Pro 机器上安装了 SQL Server 2000 和 2008 我可以在本地连接到两个数据库实例从另一个机器 Windows 7 机器中我可以连接到第一个机器上的 SQL 2000 实例但无法使用本地
Guice：使用@Named创建对象

使用Guice 如果我有的话 Inject Named light Color light 我可以用 bind Color class annotatedWith Names named light toInstance new Color
类型错误：您在需要流的地方提供了无效的对象。您可以提供 Observable、Promise、Array 或 Iterable

我在尝试着map来自服务调用但收到错误看着subscribe 没有在 Angular 2 中定义吗 https stackoverflow com questions 41995647 subscribe is not defined i
ContentEditable DIV - 禁用拖放

是否可以禁用 contentEditable 属性设置为 true 的元素的拖放功能我有以下 HTML 页面 div This is editable content div span This is not editable conte
NHibernate - 无法执行查询 - 输入字符串的格式不正确

我已经为此摸不着头脑有一段时间了我不知道出了什么问题概述我的 MySQL 数据库中有两个表两者都正确映射到数据库我可以加载数据并且我能够查询一个表但不能查询另一个表我研究过的解决方案表和 C 代码之间的类型转换问题映射问
为什么 sapply 的缩放速度比样本大小的 for 循环慢？

假设我想采用向量 X 2 1 N 并将 e 计算为每个元素的指数是的我认识到最好的方法就是通过向量化 exp X 但这样做的目的是将 for 循环与 sapply 进行比较我通过逐步尝试三种方法一种使用 for 循环两种以不同方

为什么 sapply 的缩放速度比样本大小的 for 循环慢？

为什么 sapply 的缩放速度比样本大小的 for 循环慢？ 的相关文章

随机推荐

热门标签

为什么 sapply 的缩放速度比样本大小的 for 循环慢？的相关文章