R：检查一组变量是否形成唯一索引

2023-12-13

我有一个大数据框，我想检查一组（因子）变量的值是否唯一标识数据的每一行。

我当前的策略是按我认为是索引变量的变量进行聚合

dfAgg = aggregate(dfTemp$var1, by = list(dfTemp$var1, dfTemp$var2, dfTemp$var3), FUN = length)
stopifnot(sum(dfAgg$x > 1) == 0)

但这个策略需要永远持续下去。更有效的方法将不胜感激。

Thanks.

The data.table包提供速度非常快duplicated and unique方法用于data.tables。它还有一个by=参数，您可以在其中提供应计算重复/唯一结果的列。

这是一个大型 data.frame 的示例：

require(data.table)
set.seed(45L)
## use setDT(dat) if your data is a data.frame, 
## to convert it to a data.table by reference
dat <- data.table(var1=sample(100, 1e7, TRUE), 
                 var2=sample(letters, 1e7, TRUE), 
                 var3=sample(as.numeric(sample(c(-100:100, NA), 1e7,TRUE))))

system.time(any(duplicated(dat)))
#  user  system elapsed
# 1.632   0.007   1.671

这需要 25 秒使用anyDuplicated.data.frame.

# if you want to calculate based on just var1 and var2
system.time(any(duplicated(dat, by=c("var1", "var2"))))
#  user  system elapsed
# 0.492   0.001   0.495

这需要 7.4 秒使用anyDuplicated.data.frame.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dataTable

R：检查一组变量是否形成唯一索引的相关文章

使用 R Shiny 从 XLConnect 下载 Excel 文件

有没有人尝试过使用 R Shiny 中的下载处理程序通过 XLConnect 下载新创建的 Excel 文件在 ui R 中有一行不起眼的行 downloadButton downloadData Download 在 server R
将命名参数列表传递给函数？

我想编写一个小函数来从适当的分布生成样本例如 makeSample lt function n dist params values lt makeSample 100 unif list min 0 max 10 values lt m
R::bigmemory - 如何创建角色big.matrix？

我尝试使用bigmemory封装在R我一开始就陷入困境我愿意 temp lt matrix paste a 1 10 5 2 并得到一个字符矩阵没关系但后来我尝试 x lt as big matrix temp type char 我
基于另一个数据集获取数据集的子集

假设我有一个数据集即 dat1 ID block plot SPID TotHeight 1 1 1 4 44 5 2 1 1 4 51 3 1 1 4 28 7 4 1 1 4 24 5 5 1 1 4 27 3 6 1 1 4 20
计算例如具有多列 data.frames 的列表中的平均值

我有几个 data frames 的列表每个 data frame 有几列通过使用mean mylist first dataframe a我可以得到这个 data frame 中 a 的平均值但是我不知道如何计算列表中存储的所有 d
LDA with topicmodels，如何查看不同文档属于哪些主题？

我正在使用 topicmodels 包中的 LDA 我已经在大约 30 000 个文档上运行它获取了 30 个主题并获得了主题的前 10 个单词它们看起来非常好但我想看看哪些文档属于哪个主题的概率最高我该怎么做 myCorpus
kableExtra 中的 row_spec() 函数不会在 html 输出中创建水平线

我想在 kableextra 表中的某一行下方添加一条水平线 row spec 函数的参数 hline after 应该在行下方添加水平线 row spec 文档 https www rdocumentation org packages
使用 broom 和 tidyverse 总结 r 平方游戏

我发布了一个问题here https stackoverflow com questions 48627287 getting adjusted r squared value for each line in a geom smooth
在 R 中创建一个运行计数变量？

我有一个足球比赛结果的数据集我希望通过创建一组类似于世界足球 Elo 公式的运行评级来学习 R 我遇到了麻烦在 Excel 中看似简单的事情在 R 中并不完全直观例如 4270 个观察中的前 15 个具有必要的变量 date t 1
如何用外部图像填充地图边界？

我正在创建一张带有州边界的巴西地图这可以直接使用ggplot2 and geom sf 然而这一次我不想用数据填充每个状态的颜色而是想用外部图像 png 填充每个状态的边界类似于this https online olivet e
IEnumerable 作为 DataTable 性能问题

我有以下扩展它生成一个DataTable从一个IEnumerable public static DataTable AsDataTable
我无法下载 R 中的 reshape2 包 [关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我在尝试安装 R 包时收到此响应 gt installed packages reshape2 Package LibPath V
正则表达式字符串中第一个和最后一个非点的位置

我希望找到字符串的第一个和最后一个非点元素的位置理想情况下我想这样做regex在基地R 我已经写过R解决问题的代码不过我对一个感兴趣regex解决方案感谢您的任何建议这是一个示例数据集和R代码以获得所需的结果此代码拆分字符串并使
R - Plm 和 lm - 固定效应

我有一个平衡面板数据集 df 本质上由三个变量组成 A B and Y 对于一堆独特识别的区域来说它会随着时间的推移而变化我想运行一个回归其中包括区域下面等式中的区域和时间年份固定效应如果我没记错的话我可以通过不同的方式来
使用 pracma::findpeaks 识别持续峰值

我的语法有问题peakpat内的选项findpeaks内的函数pramcaR 包 v 2 1 1 我使用的是 R 3 4 3 x64 Windows 我希望该函数能够识别可能有两个重复值的峰值并且我相信该选项peakpat这就是我能做到的
时间戳半小时窗口内字段的平均值

我的数据框有列名Timestamp es看起来像 Timestamp es 2015 04 01 09 07 42 31 2015 04 01 09 08 01 29 5 2015 04 01 09 15 03 18 5 2015 04 0
绘制点之间的所有线

我有以下 R 代码 x lt c 0 01848598 0 08052353 0 06741172 0 11652034 y lt c 0 4177541 0 4042247 0 3964025 0 4074685 d lt data fr
将每列的值乘以 R 中另一个 data.frame 中的权重

我有两个data frames df and weights 代码如下 df看起来像这样 id a b d EE f 1 this 0 23421153 0 02324956 0 5457353 0 73068586 0 5642554 2
在 R 中使用 lapply 绘制多个数据帧

我正在尝试使用 lapply 函数绘制多个数据帧每个数据帧一个图但是尽管有关此主题的所有帖子我都找不到答案因为我不断收到错误图的输出列表为空我的数据结构如下 df1 lt mtcars gt group by cyl gt tal
ggplot2 geom_密度和geom_histogram在一个图中

如何制作一个所有条形加起来为 1 的直方图并在适合的上方添加一个密度层 set seed 1234 df lt data frame sex factor rep c F M each 200 weight round c rnorm 2

随机推荐

HTML5 Server 发送事件和多个客户端（不使用 Comet）

我有一个用例我想知道 HTML5 的 Server sent Events 是否适合多个客户端 Javascript HTML5 浏览器连接到 Web 服务器具有 Java EE 后端每个客户都可以随时查看不同的视图具体取决于他
如何接受/忽略QKeyEvent

http qt project org doc qt 5 qwidget html keyPressEvent 请注意 QKeyEvent 以 isAccepted true 开头因此您不需要需要调用 QKeyEvent accept
禁用 jQuery 自动完成下拉列表

这是一个相当简单的问题但如何禁用 jQuery 自动完成的下拉菜单当用户开始输入时我在响应回调上运行我自己的函数我不需要任何其他东西出现这就是我所拥有的 search autocomplete source app friends
如何在C++中输出unicode方框图？

抱歉这听起来很简单但我正在尝试使用来自的 unicode 字符在 Visual Studio 2017 中绘制一个简单的框https en wikipedia org wiki Box drawing character使用下面的代码
这段代码是否安全，不会受到 SQL 注入的影响

我想让我的代码尽可能安全免受任何类型的攻击我希望对下面使用的简单代码有一些了解如果有任何关于如何使其更安全如果它很脆弱以及为什么会变得更安全的指示那就太棒了我读到使用准备好的语句是防范攻击的最佳实践
将块元素排列在一条水平线上

我不知道要么我不太擅长搜索艺术要么这个话题太简单了通常没有人问这个问题但自从我开始我的网站以来我一直在搜索这个问题我的网页上只有四个块元素第一个 Block 元素单独显示在顶部第二个第三个和第四个块元素我想从下一行排
scipy.interpolate 中的 interp1d 函数使用什么算法

所以我正在为我的数值课程编写一个Python程序并且我必须编写一个三次样条程序所以我实现了书中给出的三次样条公式Chapra 和 canale 的数值方法 and 数值数学作者 chenny 和 kincaid 所以我的数据是 x 1
需要在单引号xslt中分配属性值

我们需要使用 xslt 转换从 xml 创建一个 html 我们需要生成的 html 锚标记为 a a
将 UUID 与 EclipseLink 和 PostgreSQL 结合使用

我想使用 PostgreSQL uuid 类型作为对象的主键为此我创建了一个转换器实现 Converter 接口下面是相关代码 Override public void initialize DatabaseMapping mapp
如何替换一堆文件中的多行字符串

bin sh old hello new world sed i s old new g grep old rl 前面的脚本仅适用于单行文本我如何编写一个脚本可以替换多行文本 old line1 line2 line3 new newt
检测iframe内容是否加载成功

我有一个包含 iframe 的小部件用户可以配置此 iframe 的 url 但如果无法加载该 url 它不存在或用户无法访问互联网则 iframe 应该故障转移到默认的离线页面问题是如何检测iframe是否可以加载我尝试订阅 l
ValueError：发现样本数量不一致的数组 [6 1786]

这是我的代码 from sklearn svm import SVC from sklearn grid search import GridSearchCV from sklearn cross validation import KFo
具有许多请求的 Blazor Server 应用程序使网站不稳定

我创建了 Blazor 服务器 Web 应用程序并将其部署在 Azure 应用服务上并在Network选项卡我看到很多请求https mywebsites0123 azurewebsites net blazor id 3OO T6L4
编码 ui 测试完成后如何保持浏览器打开？

我正在对 Web 应用程序使用 Visual Studio 2012 编码 UI 测试我有一个登录应用程序的测试该测试启动浏览器找到登录对话框输入凭据然后单击确定我有一个断言可以在登录后检查正确的网址该测试似乎运行正常我
如何避免合并分布式表上的高基数子选择聚合

在 Clickhouse 中我有一个大表 A 其中包含以下列 date user id operator active 在表 A 中事件已经根据日期 user id 和操作员进行了预先聚合而活动列表示用户在给定日期存在某种类型的活
如何在iPhone应用程序中通过代码获取用户的当前位置？

我想从我的 iPhone 应用程序获取用户的当前位置我想在我的应用程序中显示用户当前的位置例如国家地区名称纬度经度信息我也想在谷歌地图上显示位置我也尝试过谷歌搜索但无法得到确切的答案我已经得到了要使用的信息CLLocati
将 B 样条曲线拟合到控制路径

我意识到在 R 中使用 B 样条存在很多问题和答案但我还没有找到这个看似简单问题的答案给定一组描述控制路径的点如何拟合 B 样条曲线并沿着曲线提取给定数量的点例如 100 以进行绘图问题是路径在 x 和 y 上都不是单调的控
如何在 Java 中替换字符串中的点 (.)

我有一个名为persons name 我想更换DOT with 即我的输出将是persons name 我尝试了这段代码 String a str xpath replaceAll a 我收到 StringIndexOutOfBoundsE
如何向网站添加一些非标准字体？

有没有办法在网站上添加一些自定义字体而不使用图像 Flash或者其他一些图形例如我正在开发一个婚礼网站我发现了很多适合该主题的漂亮字体但我找不到在服务器上添加该字体的正确方法我如何将该字体与 CSS 一起包含到 HTML 中没有
R：检查一组变量是否形成唯一索引

我有一个大数据框我想检查一组因子变量的值是否唯一标识数据的每一行我当前的策略是按我认为是索引变量的变量进行聚合 dfAgg aggregate dfTemp var1 by list dfTemp var1 dfTemp var2

R：检查一组变量是否形成唯一索引

R：检查一组变量是否形成唯一索引 的相关文章

随机推荐

热门标签

R：检查一组变量是否形成唯一索引的相关文章