为什么 R 的重复数据在排序数据上表现更好？

2024-01-23

在比较答案中两个函数的效率时检查列表是否包含 R 中的另一个列表 https://stackoverflow.com/a/39350733/4408538，我偶然发现了一个有趣的结果。排序大大提高了效率duplicated当向量很大时。这让我感到惊讶，因为我从来没有注意到我自己的工作中使用duplicated。事实上，对于我每天使用的尺寸来说，没有什么区别。观察：

set.seed(1007)
s1 <- sample(10^2, 10^3, replace = TRUE)
s1_sort <- sort(s1)
library(microbenchmark)
microbenchmark(dp=duplicated(s1), dp_sort=duplicated(s1_sort), times=1000)
Unit: microseconds
   expr    min      lq     mean  median      uq      max neval cld
     dp 16.459 16.9425 22.06371 17.2965 22.5050 1541.137  1000   a
dp_sort 17.007 17.5005 25.54953 17.8200 23.3655 1549.198  1000   a

正如您所看到的，向量排序时的时间没有明显的差异。然而，对于非常大的向量，结果有很大不同。观察：

s2 <- sample(10^6, 10^7, replace = TRUE)
s2_sort <- sort(s2)
microbenchmark(dp=duplicated(s2), dp_sort=duplicated(s2_sort), times=100)
Unit: milliseconds
   expr      min       lq     mean   median       uq       max neval cld
     dp 816.6883 847.9231 869.6829 861.8210 882.3978 1019.6339   100   b
dp_sort 287.6779 305.4779 322.8830 315.1198 324.9249  449.1734   100  a

几乎快了 3 倍！！！这让我陷入了兔子洞，它从这里开始：r-源.../重复.R https://github.com/SurajGupta/r-source/blob/master/src/library/base/R/duplicated.R。从这里我们看到，duplicated 调用了.Internal(duplicated(x,...))。然后使用该函数pryr::show_c_source(.Internal(duplicated(x)))和解决方法 https://github.com/hadley/pryr/issues/48由 @joran 建议（show_c_source目前出现问题..参见'show_c_source()' 坏了吗？ https://stackoverflow.com/q/38353760/4408538），我们看到duplicated打电话给。最后，heart https://github.com/wch/r-source/blob/6e7a2ed989027f3800d2e2d64e60e6d700034c6b/src/main/unique.c#L667 of duplicated显示（从第 667 行开始，到第 988 行结束）。看起来整个向量被循环，然后发生一些散列：

724     /* count unique entries */
725     k = 0;
726     for (i = 0; i < n; i++)
727         if (LOGICAL(dup)[i] == 0)
728             k++;

776     /* Build a hash table, ignoring information on duplication */
777     static void DoHashing(SEXP table, HashData *d)

我不完全理解所有代码，但似乎排序并不重要。无论哪种情况（排序与非排序），我们都会循环遍历整个向量，并最终调用各种哈希函数，这不应该取决于向量是否排序。我最初的想法是正在进行某种分支预测（请参阅这个问题 https://stackoverflow.com/q/11227809/4408538），但是从更新到这个答案 https://stackoverflow.com/a/11227902/4408538，看来这些事情应该已经不重要了。

这是怎么回事？？

EDIT

随着向量大小和重复项数量的增加，差距似乎也在增加。

set.seed(496)
s3 <- sample(10^6, 10^8, replace = TRUE)
s3_sort <- sort(s3)
microbenchmark(dp=duplicated(s3), dp_sort=duplicated(s3_sort), times = 10)
Unit: seconds
   expr       min        lq      mean    median        uq       max neval cld
     dp 12.149932 12.175665 12.848843 12.495599 12.719861 15.589190    10   b
dp_sort  2.395636  2.401837  2.706674  2.551375  2.677556  4.373653    10  a

正如@alexis_laz指出的，如果没有重复项，排序的影响就会大大减少。

s4 <- sample(10^8)
s4_sort <- sort(s4)
microbenchmark(dp=duplicated(s4), dp_sort=duplicated(s4_sort), times = 10)
Unit: seconds
   expr      min       lq     mean   median       uq       max neval cld
     dp 8.013995 8.130565 8.593626 8.197501 8.438703 10.639452    10   b
dp_sort 6.135788 6.158140 6.751101 6.256739 7.241381  8.913507    10  a

主要因素是 CPU 缓存未命中率，并且随着大小的增加，页面错误的代价也会更高。通过参考简单的哈希表来检查重复。如果被查询的哈希表部分已经在高速内存缓存中，那么这些查找会快得多。对于小向量，相应的哈希表将完全适合高速内存缓存，因此访问顺序并不重要，这就是您在第一个基准测试中看到的。

对于较大的向量，在任何给定时间只有哈希表的某些块适合缓存。如果重复项是连续的，则查找所需的哈希表部分将已经在缓存中以供后续查找。这就是为什么性能会随着较大向量的重复次数而提高。对于非常大的向量，哈希表甚至可能无法完全适合可用的物理内存并被分页到磁盘，从而使差异更加明显。

为了测试这一点，让我们使用原始帖子的s2向量及其排序版本，但也测试是否使重复项彼此相邻，但否则未排序。

# samples as in original post
s2 <- sample(10^6, 10^7, replace = TRUE)
s2_sort <- sort(s2)

# in the same order as s2, but with duplicates brought together
u2 <- unique(s2)
t2 <- rle(s2_sort)
s2_chunked <- rep(u2,times=t2$length[match(u2,t2$values)])

我们还考虑仅按哈希值排序。我将近似 R 中的哈希编码，但我们在这里处理的是双倍大小的值，而不是能够使用无符号长整型，因此我们将无法使用按位运算。

# in the order of hash value
K <- ceiling(log2(length(s2)*2))
M <- 2^K
h <- ((3141592653 * s2) %% 2^32)/2^(32-K)
ho <- order(h)
s2_hashordered <- s2[ho]

我们期望看到的是性能相似s2_sort and s2_chunked甚至更好s2_hashordered。在每种情况下，我们都尝试最大限度地减少缓存未命中。

microbenchmark(
 duplicated(s2), 
 duplicated(s2_sort), 
 duplicated(s2_chunked),
 duplicated(s2_hashordered),
 times=10)

Unit: milliseconds
                       expr      min       lq     mean   median       uq      max neval cld
             duplicated(s2) 664.5652 677.9340 690.0001 692.3104 703.8312 711.1538    10   c
        duplicated(s2_sort) 245.6511 251.3861 268.7433 276.2330 279.2518 284.6589    10  b 
     duplicated(s2_chunked) 240.0688 243.0151 255.3857 248.1327 276.3141 283.4298    10  b 
 duplicated(s2_hashordered) 166.8814 169.9423 185.9345 185.1822 202.7478 209.0383    10 a

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么 R 的重复数据在排序数据上表现更好？的相关文章

unix 下日期字段排序

我有包含数十万条记录的文本文件其中一个字段是日期字段有没有办法根据日期字段对文件进行排序 09 APR 12 04 08 43 632279000 AM 19 MAR 12 03 53 38 189606000 PM 19 MAR 12
去除字符串的最佳方法是什么？

我需要具有最佳性能的想法来删除过滤字符串 I have string Input view 512 3 159 删除 view 和的最佳性能方法是什么和引号我可以做这个 Input Input Replace view Replac
在 R 中创建一个运行计数变量？

我有一个足球比赛结果的数据集我希望通过创建一组类似于世界足球 Elo 公式的运行评级来学习 R 我遇到了麻烦在 Excel 中看似简单的事情在 R 中并不完全直观例如 4270 个观察中的前 15 个具有必要的变量 date t 1
如何用外部图像填充地图边界？

我正在创建一张带有州边界的巴西地图这可以直接使用ggplot2 and geom sf 然而这一次我不想用数据填充每个状态的颜色而是想用外部图像 png 填充每个状态的边界类似于this https online olivet e
在shiny中过滤传单地图数据

我在用传单地图设置这个闪亮的东西时遇到了麻烦我的原帖 https stackoverflow com questions 50111566 applying leaflet map bounds to filter data within
R - Plm 和 lm - 固定效应

我有一个平衡面板数据集 df 本质上由三个变量组成 A B and Y 对于一堆独特识别的区域来说它会随着时间的推移而变化我想运行一个回归其中包括区域下面等式中的区域和时间年份固定效应如果我没记错的话我可以通过不同的方式来
使用 purrr 迭代替换数据帧列中的字符串

我想用purrr使用以下命令在数据框列上迭代运行多个字符串替换gsub 功能这是示例数据框 df lt data frame Year 2019 Text c rep a aa 5 rep a bb 3 rep a cc 2 gt df
通过间接引用列来修改数据框中的某些值

我正在整理一些数据我们将失败的数据分类到垃圾箱中并按批次计算每个分类箱的有限产量我有一个描述排序箱的元表这些行按升序测试顺序排列一些排序标签带有非语法名称 sort tbl lt tibble tribble weight lab
从命令行运行 R 代码 (Windows)

我在名为 analysis r 的文件中有一些 R 代码我希望能够从命令行 CMD 运行该文件中的代码而无需通过 R 终端并且我还希望能够传递参数并在我的代码中使用这些参数例如就像下面的伪代码 C gt execute r scri
fetchsize和batchsize对Spark的影响

我想通过以下方式控制 RDB 的读写速度Spark直接但标题已经透露的相关参数似乎不起作用我可以得出这样的结论吗fetchsize and batchsize我的测试方法不起作用或者它们确实会影响阅读和写作方面因为测量结果基于规模是
API 请求和curl::curl_fetch_memory(url, handle = handle) 中的错误：SSL 证书问题：证书已过期

几天前我运行了代码几个月没有任何问题 GET url myurl query 今天我遇到一个错误 Error in curl curl fetch memory url handle handle SSL certificate pro
MySQL 使用 ALTER IGNORE TABLE 出现重复错误

我的 MySQL 中有一个有重复项的表我尝试删除重复项并保留一项我没有主键我可以通过以下方式找到重复项 select user id server id count as NumDuplicates from user server
在 R 中创建虚拟变量，排除某些情况为 NA

我的数据看起来像这样 V1 V2 A 0 B 1 C 2 D 3 E 4 F 5 G 9 我想创建一个虚拟变量R where 0 1 1 2 3 4 and NA 0 5 9 应该很简单有人可以帮忙吗我们可以转换V2 into a fa
Purrr::map_df() 删除 NULL 行

使用时purrr map df 我偶尔会传递一个数据框列表其中一些项目是NULL 当我做 map df 返回行数少于原始列表的数据框我想发生的事情是这样的map df calls dplyr bind rows 它忽略了NULL价值观
独立对列进行排序，使得所有空值都位于每列的最后

这是一个名为的示例表animal name color fox brown fox red dog gold 现在我想要的是这样的结果 fox dog brown gold red 名称应该是结果的列不同颜色值作为行我的第一个想法是
ggplot2 geom_密度和geom_histogram在一个图中

如何制作一个所有条形加起来为 1 的直方图并在适合的上方添加一个密度层 set seed 1234 df lt data frame sex factor rep c F M each 200 weight round c rnorm 2
基于时间窗口的不规则时间序列的优化滚动函数

有没有办法使用 rollapply 来自zoo包或类似的东西优化功能 rollmean rollmedian等使用基于时间的窗口计算滚动函数而不是基于大量观察的函数我想要的很简单对于不规则时间序列中的每个元素我想计算一个具有 N
将阴影区域添加到五分位数之间的直方图中

All 我有一个包含 2 个直方图的图表其中我还绘制了代表第 20 40 60 和 80 个百分位数的线条下面的代码使用虚拟数据重现了类似的图表 data lt rbind data frame x rnorm 1000 0 1 g o
文本挖掘 pdf 文件/词频问题

我正在尝试挖掘一篇具有丰富 pdf 编码和图表的文章的 pdf 我注意到当我挖掘一些 pdf 文档时我得到的高频词是 phi taeoe toe sigma gamma 等它与某些 pdf 文档配合良好但与其他文档配合使用时却得到这
旋转 Markdown 的表格 pdf 输出

我想将 pdf 上的表格输出旋转 90 度我正在使用 Markdown 生成报告并kable循环显示表格如果可以的话我想继续使用kable因为还有很多其他依赖于它的东西我没有包含在这个 MWE 中这是一个简单的例子使用iris数据集

随机推荐

根据列值分割大型 csv 文本文件

我的 CSV 文件有多列已排序例如我可能有这样的行 19980102 PLXS 10032 Q A 15 12500 15 00000 15 12500 2 19980105 PLXS 10032 Q A 14 93750 14 750
C++ 中单例的线程安全惰性构造

有没有一种方法可以在 C 中实现单例对象以线程安全的方式延迟构造两个线程可能同时是单例的第一个用户它仍然应该只构造一次不依赖于预先构造的静态变量因此在构造静态变量期间单例对象本身可以安全使用我不太了解我的C 但是在执行任何代码之
使用 maven-compiler-plugin 排除包适用于一个包，但不适用于另一个包

我的项目具有以下包结构 src com my app school course Course java com my app school course free CourseFree java 我使用Maven来构建项目在我的pom
使用 Stateful Session Bean 来跟踪用户的会话

这是我的第一个问题我希望我做得对我需要从事 Java EE 项目因此在开始之前我尝试做一些简单的事情看看是否能做到我被困住了有状态会话 Bean 这是问题我怎样才能使用SFSB跟踪用户的会话我看到的所有例子最终都放入 S
UIBezierPath：roundedRect：byRoundingCorners：cornerRadii：行为怪异

我正在尝试将按钮的两个角变成圆形如果我像这样选择 TopLeft 和 BottomLeft let bezierDisableAdsPath UIBezierPath roundedRect disableAdsButton bounds
Gitlab Pages：无法验证域所有权

今天早上我收到了针对托管在自定义域上的每个 Gitlab 页面的电子邮件称域验证失败没关系因为我认为我一开始就没有验证过它们 Gitlab 很好地实现了这一点当我转到每个存储库的设置 gt 页面 gt Domain Detail
一个 SVG 文件，里面有很多 SVG 渐变

我正在制作一组使用动态渐变的按钮我已经通过使用 Firefox 3 6 和 WebKit 专有的 CSS 扩展来处理它们我所需要做的就是使用 background image url gradient svg 支持 Opera iOS
phpExcel：无法加载资源：net::ERR_CONNECTION_RESET

我实际上使用 phpExcel 来获取一个 excel 文件我用一个命令从用户那里恢复该文件
Shiny 未检测到shiny:inputchanged 事件

如果应用程序能够检测到上次单击或更新的小部件的 ID 那么我为闪亮的应用程序设计所采用的方法将是最简单的 This https stackoverflow com q 72061061 7742981问题的出现解决了问题然而当我使用接受
从 Rails3-jquery-autocomplete 自定义列表

我有一个hotel模型及其属性是 id hotel name address searchable 当我设置可搜索时false对于特定酒店当我在搜索字段中输入时该酒店不应出现在下拉列表中控制器是 class HotelsControl
表情符号字符变灰（HTML / CSS）

我当前的问题是我正在尝试将带有表情符号的按钮灰显尽管如此由于表情符号的性质似乎无法使用 HTML CSS 属性更改颜色 I e
xib 文件的 iPhone 本地化

我刚刚熟悉 xib 文件的本地化想知道是否有一种方法可以通过直接引用 plist 来本地化 xib 中的字符串欣赏一些想法如果您不想直接本地化 xib 文件则可以将它们包含的文本提取到 strings 文件中并且在翻译 strin
如何使用node.js测试文件权限？

如何检查正在运行的 Node js 进程对给定文件的权限读写执行我希望fs Stats object http nodejs org docs latest api fs html fs class fs stats有一些有关权限的
Django 外键值的精确匹配

class Sentence Model name CharField class Tokens Model token CharField sentence ForeignKey Sentence related name tokens
如何在 android 中模拟 Kotlin 对象？

我在 kotlin 中有一个对象控制当前用户的会话信息我想模拟有回调的登录方法在测试时我需要在 SessionController 对象中模拟此方法 object SessionController fun signIn userna
Java (J2SE) DTMF 音调检测

我正在尝试执行以下操作我正在使用我的 java 应用程序给另一个人打电话已经完成并且工作正常然后我正在播放录音例如请按 1 一继续英语已经完成且工作正常现在我想检测那个人按 1 根据我在 google 搜索中的研究我发现这可
如何在 Excel 中将 hhmmAM/PM（无空格）格式化为时间 hh:mm AM/PM？

我正在开发一个薪资项目为了提高数据输入效率我希望以 hhmmAM PM 格式输入时间没有空格或冒号最好只输入 a p 而不是 AM PM 并将其转换为标准带有冒号和空格的时间格式谢谢这是一个为列编码的小宏A 可以对其进行修改以处
增加火花任务大小[重复]

这个问题在这里已经有答案了当我在 Spark Shell 中执行代码时遇到问题 Stage 1 gt 0 0 16 17 01 13 06 09 24 WARN TaskSetManager Stage 1 contains a task
如何处理“超出最大存储过程、函数、触发器或视图嵌套级别（限制 32）”。

我被要求创建脚本希望运行它的人提供员工 ID 找到所提供的员工任意深度监督的所有员工我的代码是 CREATE FUNCTION dbo GetNames V uniqueidentifier RETURNS OldNames TABLE
为什么 R 的重复数据在排序数据上表现更好？

在比较答案中两个函数的效率时检查列表是否包含 R 中的另一个列表 https stackoverflow com a 39350733 4408538 我偶然发现了一个有趣的结果排序大大提高了效率duplicated当向量很大时这让我感

为什么 R 的重复数据在排序数据上表现更好？

EDIT

为什么 R 的重复数据在排序数据上表现更好？ 的相关文章

随机推荐

热门标签

为什么 R 的重复数据在排序数据上表现更好？的相关文章