确定向量中是否存在元素的最有效方法

2024-05-14

我有几种算法取决于确定元素是否存在于向量中的效率。在我看来，这%in%（这相当于is.element()）应该是最有效的，因为它只返回一个布尔值。在测试了几种方法之后，令我惊讶的是，这些方法是迄今为止效率最低的。以下是我的分析（随着向量大小的增加，结果会变得更糟）：

EfficiencyTest <- function(n, Lim) {

    samp1 <- sample(Lim, n)
    set1 <- sample(Lim, Lim)

    print(system.time(for(i in 1:n) {which(set1==samp1[i])}))
    print(system.time(for(i in 1:n) {samp1[i] %in% set1}))
    print(system.time(for(i in 1:n) {is.element(samp1[i], set1)}))
    print(system.time(for(i in 1:n) {match(samp1[i], set1)}))
    a <- system.time(set1 <- sort(set1))
    b <- system.time(for (i in 1:n) {BinVecCheck(samp1[i], set1)})
    print(a+b)
}

> EfficiencyTest(10^3, 10^5)
user  system elapsed 
0.29    0.11    0.40 
user  system elapsed 
19.79    0.39   20.21 
user  system elapsed 
19.89    0.53   20.44 
user  system elapsed 
20.04    0.28   20.33 
user  system elapsed 
0.02    0.00    0.03

Where BinVecCheck是我编写的返回的二分搜索算法TRUE/FALSE。请注意，我包括了使用最终方法对向量进行排序所需的时间。这是二分查找的代码：

BinVecCheck <- function(tar, vec) {      
    if (tar==vec[1] || tar==vec[length(vec)]) {return(TRUE)}        
    size <- length(vec)
    size2 <- trunc(size/2)
    dist <- (tar - vec[size2])       
    if (dist > 0) {
        lower <- size2 - 1L
        upper <- size
    } else {
        lower <- 1L
        upper <- size2 + 1L
    }        
    while (size2 > 1 && !(dist==0)) {
        size2 <- trunc((upper-lower)/2)
        temp <- lower+size2
        dist <- (tar - vec[temp])
        if (dist > 0) {
            lower <- temp-1L
        } else {
            upper <- temp+1L
        }
    }       
    if (dist==0) {return(TRUE)} else {return(FALSE)}
}

平台信息：

> sessionInfo()
R version 3.2.1 (2015-06-18)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 7 x64 (build 7601) Service Pack 1

Question

有没有更有效的方法来确定R中向量中是否存在元素？例如，是否有与 Python 等效的 R 函数set https://docs.python.org/2/library/sets.html函数，这大大改进了这种方法？还有，为什么是%in%等，即使与which提供更多信息的函数（它不仅确定存在性，而且还给出所有真实帐户的索引）？

我的测试并没有证实你的所有主张，但这似乎（？）是由于跨平台差异（这使得问题变得更加神秘，并且可能值得考虑）[email protected] /cdn-cgi/l/email-protection，虽然也许不是因为fastmatch无论如何，下面的解决方案占主导地位......）

 n <- 10^3; Lim <- 10^5
 set.seed(101)
 samp1 <- sample(Lim,n)
 set1 <- sample(Lim,Lim)
 library("rbenchmark")

 library("fastmatch")
 `%fin%` <- function(x, table) {
     stopifnot(require(fastmatch))
     fmatch(x, table, nomatch = 0L) > 0L
 }
 benchmark(which=sapply(samp1,function(x) which(set1==x)),
           infun=sapply(samp1,function(x) x %in% set1),
           fin= sapply(samp1,function(x) x %fin% set1),
           brc= sapply(samp1,BinVecCheck,vec=sort(set1)),
           replications=20,
    columns = c("test", "replications", "elapsed", "relative"))

##    test replications elapsed relative
## 4   brc           20   0.871    2.329
## 3   fin           20   0.374    1.000
## 2 infun           20   6.480   17.326
## 1 which           20  10.634   28.433

这说的是%in%大约是两倍which- 你的BinVecCheck功能好 7 倍，但fastmatch解决方案来自here https://stackoverflow.com/questions/32934933/faster-in-operator得到另一个因子 2。我不知道专门的 Rcpp 实现是否可以做得更好...... 事实上，即使运行您的代码，我也会得到不同的答案：

##    user  system elapsed   (which)
##   0.488   0.096   0.586 
##    user  system elapsed   (%in%) 
##   0.184   0.132   0.315 
##    user  system elapsed  (is.element)
##   0.188   0.124   0.313 
##    user  system elapsed  (match)
##   0.148   0.164   0.312 
##    user  system elapsed  (BinVecCheck)
##   0.048   0.008   0.055

update: on r-develPeter Dalgaard 通过指出 R 来解释平台差异（这是 R 版本差异，而不是操作系统差异）NEWS https://cran.r-project.org/doc/manuals/r-devel/NEWS.html entry:

match(x, table)更快，有时快一个数量级，当x长度为 1 并且 incomparables 没有改变，这要归功于 Haverty 的 PR#16491。

sessionInfo()
## R Under development (unstable) (2015-10-23 r69563)
## Platform: i686-pc-linux-gnu (32-bit)
## Running under: Ubuntu precise (12.04.5 LTS)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

确定向量中是否存在元素的最有效方法的相关文章

使用 OpenCV 描述符与 findFundamentalMat 匹配

我之前发布了有关同一程序的问题但没有收到答案我已经纠正了当时遇到的问题但又面临新的问题基本上我使用未校准的方法自动校正立体图像对的旋转和平移我使用 SURF 等特征检测算法来查找两个图像左右立体图像对中的点然后再次使用 S
如何对范围内的行进行分组并考虑第三列？

我有一个遗传数据集我想对基因组中物理上靠近的遗传变异行进行分组我想对每条染色体基因组中某些点范围内的基因进行分组 chrom 我的点数据集包含变体行需要在一定范围内的位置如下所示 chrom low high 1 500 17
如何在 PHP 数组中的另一个已知（通过键或指针）元素之后有效地插入元素？

给定一个数组 a array abc 123 k1 gt v1 k2 gt v2 78 tt k3 gt v3 当其内部指针指向其元素之一时如何在当前元素之后插入元素如何在键已知元素例如 k1 之后插入元素表现护理您可以通过使用拆
使用 data.table 左连接

假设我有两个数据表 s dataA A B 1 1 12 2 2 13 3 3 14 4 4 15 dataB A B 1 2 13 2 3 14 我有以下代码 merge test merge dataA dataB by A all d
按名称包含在单个对象中的多个列对 data.frame 进行排序？

我想排序一个data frame由多列组成理想情况下使用基础 R 无需任何外部包尽管如果有必要就这样吧读过如何按列对数据框进行排序 https stackoverflow com questions 1296646 how to s
SparkR 和 Sparklyr 之间导入 parquet 文件所需的时间差异

我正在使用 databricks 导入镶木地板文件SparkR and sparklyr data1 SparkR read df dbfs data202007 source parquet header TRUE inferSchema
使用 broom 和 tidyverse 对不同的因变量进行回归

我正在寻找一个 Tidyverse 扫帚解决方案来解决这个难题假设我有不同的 DV and a specificIVS 集我想执行一个考虑每个 DV 和这组特定 IV 的回归我知道我可以使用类似 for i in 或 apply fa
NumericVector 和 vector 之间有性能差异吗？

假设有人使用NumericVector和其他用途vector
“ab”或“httperf”哪个更适合检查网站的性能？

到目前为止我知道 ab 和 httperf 两者都可以检查网站的性能这个比那个好吗嗯这确实有点取决于您想要检查的内容但我自己总是使用 httperf 关键区别在于 httperf 尝试以给定速度发送连续的请求流无论请求是否得到答复
我应该如何获取 IEnumerable 的长度？ [复制]

这个问题在这里已经有答案了我正在编写一些代码然后去获取 IEnumerable 的长度当我写的时候myEnumerable Count 令我惊讶的是它没有编译看完之后IEnumerable Count 和 Length 之间的区别
我们是否需要使用 MappedByteBuffer.force() 将数据刷新到磁盘？

我正在使用 MappedByteBuffer 来加速文件读写操作我的问题如下我不确定是否需要使用 force 方法将内容刷新到磁盘似乎没有 force getInt 仍然可以完美工作好吧因为这是一个内存映射缓冲区我假设 get
什么是粗网格搜索和细网格搜索？

我正在读这个答案用于 2D 碰撞检测的四叉树的高效且解释良好实现 https stackoverflow com questions 41946007 efficient and well explained implementati
Yslow 替代方案 - 针对小型网站的优化

我正在开发一个基于内部网的小型 Web 应用程序我安装了 YSlow 它建议我做几件事但它们似乎与我无关例如我不需要 CDN 我的应用程序很慢所以我想减少请求的带宽我应该遵守 YSlow 的哪些规则是否有适用于小型网站的替代工
R 子集 XTS 工作日

如何对 xts 对象进行子集化以仅包含工作日周一至周五周六和周日除外这就是我要做的 library xts data sample matrix sample xts lt as xts sample matrix descr my
按新年拆分日期行

我有来自一家医院的包含许多变量的数据以及每行的起始日期和截止日期这告诉我们每行何时有效每行的有效期最长为一年 test data frame ID c 10 10 10 12 12 Disease c P P P D P Pass
将所有奇数位置的元素移动到左半部分，将偶数位置的元素移动到右半部分

给定一个包含正整数和负整数的数组将所有奇数索引元素移动到左侧将偶数索引元素移动到右侧问题的难点是在维持秩序的同时就地做 e g 7 5 6 3 8 4 2 1 输出应该是 5 3 4 1 7 6 8 2 如果顺序不重要我们可以使用快
使用 ggplot 为各个图例值选择所选颜色（HSV 或 HCL 或 RGB）

我有一个类似这样的数据集 data lt read table text Me EE PE DE TE DEE CE 1 1 1 4 5 2000 0 50 0 2547 0 69 2 1 2 2 4 3000 NA 0 5896 2 56
消除垂直线ggplot

这个问题以前曾被问过但答案并不总是明确或很复杂我希望 ggplot2 的新版本能够带来更简单的解决方案如何仅消除 ggplot 的垂直线而不消除轴刻度线或标签这对于条形图来说确实很好因为它可以消除图形中一些不必要的干扰这里有一些
C# 编译器不会优化不必要的强制转换

前几天在写答案的时候这个问题 https stackoverflow com questions 2208315 why is any slower than contains在这里关于溢出我对 C 编译器感到有点惊讶它没有按照我的
时间序列，将月度数据改为季度

现在我有一些每月数据例如 1 1 90 620 2 1 90 591 3 1 90 574 4 1 90 542 5 1 90 534 6 1 90 545 etc 如果我使用 ts 函数很容易将数据转换为时间序列结构例如 Jan F

随机推荐

如何使用我自己的自定义表单覆盖 django-rest-auth 中的表单？

我正在使用 django rest auth 并尝试通过覆盖表单的方法之一来修复密码重置视图中的错误尽管我已经使用不同的 django rest auth 表单成功完成了类似的操作但我无法让它在这个表单上工作无论我做什么都会使用旧的
使用 AutoMapper 展开 DTO

我一直在尝试使用 AutoMapper 来节省从 DTO 到域对象的时间但是我在配置地图以使其正常工作时遇到了麻烦并且我开始怀疑 AutoMapper 是否可能是错误的工具工作考虑这个域对象的示例一个实体和一个值 public cl
即使 Excel 中存在多条记录，CopyFromRecordset 也仅复制并粘贴第一行

我有一个包含表格数据的 Excel 工作表 strSQL SELECT S FIELD NAME1 S FIELD NAME2 S FIELD NAME3 from SourceData A1 IV6 S Dim cn as ADODB C
基于 JavaScript 的 iPhone UI 框架

我们有一个基于推送的网络应用程序最近我们计划为其制作一个 iPhone 应用程序就像 Facebook 拥有 iPhone 应用程序和网站一样我们正在寻找一个可以让我们快速前进的 UI 框架我翻阅过PhoneGap http ww
数学 - 映射数字

如何将 a 和 b 之间的数字线性映射到 c 和 d 之间也就是说我希望 2 到 6 之间的数字映射到 10 到 20 之间的数字但我需要广义的情况我的脑子炸了如果您的数字 X 位于 A 和 B 之间并且您希望 Y 位于 C 和
PHPMailer：如何将 Content-Type 设置为 multipart/alternative

我正在使用 phpmailer 发送电子邮件但消息的标题中带有 Content Type text html 我怎样才能将其更改为多部分替代它应该类似于 mail gt 我的配置是 mail new PHPMailer mail gt
Hashicorp Vault 中的 SSL 证书配置

我最近开始使用 Vault 来存储我的 api 密钥和机密我正在尝试将其配置为使用 ssl 证书使用 HTTPS 并且我相信我已经完成了所有步骤但是当我尝试从浏览器启动该网址时我会收到一个弹出窗口要求选择证书附图片我不知道这里
If 语句中 Bool 计算错误

只是为了好奇我的代码有这个问题 e被评估为false 我知道通过查看数据库中的数据会得到错误但 if 语句并不关心这一点并假设这是真的并试图抛出异常有什么想法吗 edit 没有在第 16 行末尾价值false是正确的我已经检
使网格项跨越到隐式网格中的最后一行/列

当我不知道行数时是否可以使网格项跨度从第一行到最后一行假设我有以下 HTML 内容其中包含未知数量的框我怎样才能做到第三个 box从第一条网格线到最后一条网格线 container display grid grid templat
如何在React Material UI简单输入中启用文件上传？

我正在创建一个简单的表单来使用带有 redux 表单和材料 ui 的 electro react boilerplate 来上传文件问题是我不知道如何创建输入文件字段因为材料用户界面不支持上传文件输入关于如何实现这一目标有什么想法吗
什么是内部类的合成反向引用

我正在寻找应用程序中的内存泄漏我正在使用的探查器告诉我寻找这些类型的引用但我不知道我在寻找什么有人可以解释一下吗 Thanks Elliott 您可以对 OUTER 类进行合成反向引用但不能对内部类实例进行合成 e g class
Swift 3 中数组的 indexOf(_:) 方法的替换

在我的项目用 Swift 3 编写中我想使用从数组中检索元素的索引indexOf 方法存在于 Swift 2 2 中但我找不到任何替代方法 Swift 3 中是否有任何好的替代方法或类似的方法 Update 我忘记提及我想在自定义
时间复杂度和运行时间有什么区别？

时间复杂度和运行时间有什么区别它们是一样的吗运行时间是指程序运行所需的时间时间复杂度是对输入大小趋于无穷大时运行时间渐进行为的描述您可以说运行时间是 O n 2 或其他什么因为这是描述复杂性类和大 O 表示法的惯用方式事实上
如何在特定文件夹中运行 shell 命令

我可以用这个out err exec Command git log Output 获取将在与可执行位置相同的路径中运行的命令的输出如何指定要在哪个文件夹中运行命令 exec Command https golang org pkg os
实现快速 Javascript 搜索？

基本上我有一个带有文本框的页面和 ul 列在其下面这 ul 由用户的朋友列表填充用户开始在文本框中输入朋友的名字例如按 r 我想立即更新 ul 每次按键仅显示名字以 R 开头的朋友例如 Richard Redmond Raheem
Powershell 添加的字符串类型的 ParameterizedProperty Chars 属性是什么？

请注意 C gt Get Member MemberType eq ParameterizedProperty TypeName System String Name MemberType Definition Chars Paramete
Azure VM 自定义脚本扩展 SAS 令牌支持

我正在尝试使用 ARM 模板将自定义脚本扩展部署到 Azure VM 并且希望让它使用 SAS 令牌从存储帐户下载文件这是模板简化 name CustomScriptExtension type Microsoft Compute vi
relativelayout导致动画不起作用？

我有一个活动其布局仅包含一个 VideoView 这是 XML
AllowAnonymous 与 OverrideAuthorizeAttribute

AllowAnonymous 和 OverrideAuthorizeAttribute 的使用有什么区别是一样的吗 http www asp net web api overview security authentication and
确定向量中是否存在元素的最有效方法

我有几种算法取决于确定元素是否存在于向量中的效率在我看来这 in 这相当于is element 应该是最有效的因为它只返回一个布尔值在测试了几种方法之后令我惊讶的是这些方法是迄今为止效率最低的以下是我的分析随着向量大小的增加

确定向量中是否存在元素的最有效方法

Question

确定向量中是否存在元素的最有效方法 的相关文章

随机推荐

热门标签

确定向量中是否存在元素的最有效方法的相关文章