使用 data.table 包进行条件二进制连接和引用更新

2024-02-05

这是我现实生活中的问题，我觉得可以很容易地解决，但我在这里遗漏了一些明显的东西。我有两个大数据集TK and DFT

library(data.table)
set.seed(123)
(TK <- data.table(venue_id = rep(1:3, each = 2), 
                  DFT_id = rep(1:3, 2), 
                  New_id = sample(1e4, 6),
                  key = "DFT_id"))

#    venue_id DFT_id New_id
# 1:        1      1   2876
# 2:        1      2   7883
# 3:        2      3   4089
# 4:        2      1   8828
# 5:        3      2   9401
# 6:        3      3    456

(DFT <- data.table(venue_id = rep(1:2, each = 2), 
                   DFT_id = 1:4, 
                   New_id = sample(4),
                   key = "DFT_id"))

#    venue_id DFT_id New_id
# 1:        1      1      3
# 2:        1      2      4
# 3:        2      3      2
# 4:        2      4      1

我想表演一个二元左连接 to TK on the DFT_id列当venue_id %in% 1:2，同时更新New_id 引用。换句话说，期望的结果是

TK
#    venue_id DFT_id New_id
# 1:        1      1      3
# 2:        2      1      3
# 3:        1      2      4
# 4:        3      2   9401
# 5:        2      3      2
# 6:        3      3    456

我想结合这两个条件，但它不起作用（仍然不知道为什么）

TK[venue_id %in% 1:2 & DFT, New_id := i.New_id][]
# Error in `[.data.table`(TK, DFT & venue_id %in% 1:2, `:=`(New_id, i.New_id)) : 
#   i is invalid type (matrix). Perhaps in future a 2 column matrix could return a list of elements of DT (in the spirit of A[B] in FAQ 2.14). 
# Please let datatable-help know if you'd like this, or add your comments to FR #1611.

我的下一个想法是使用链接，它通过正确连接部分实现目标，但在一些临时表上，而不会实际影响TK

TK[venue_id %in% 1:2][DFT, New_id := i.New_id][]
TK
#    venue_id DFT_id New_id
# 1:        1      1   2876
# 2:        2      1   8828
# 3:        1      2   7883
# 4:        3      2   9401
# 5:        2      3   4089
# 6:        3      3    456

所以要明确的是，我很清楚我可以分开TK分成两个表，执行连接，然后rbind再次，但我正在做许多不同的条件连接，就像这样，我也在寻找速度和内存有效的解决方案。

这也意味着我not寻找一个dplyr解决方案，因为我正在尝试同时使用两者二元连接和通过参考更新只存在于的功能data.table包IIRC。

有关更多信息，请参阅这些小插图：

通过参考更新 https://rawgit.com/wiki/Rdatatable/data.table/vignettes/datatable-reference-semantics.html
二进制连接 https://rawgit.com/wiki/Rdatatable/data.table/vignettes/datatable-keys-fast-subset.html

复制 Arun 的更新答案here https://stackoverflow.com/questions/28889057/update-a-column-of-nas-in-one-data-table-with-the-value-from-a-column-in-another

TK[venue_id %in% 1:2, New_id := DFT[.SD, New_id]][]
#    venue_id DFT_id New_id
# 1:        1      1      3
# 2:        2      1      3
# 3:        1      2      4
# 4:        3      2   9401
# 5:        2      3      2
# 6:        3      3    456

他的回答给出了正在发生的事情的细节。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

join

dataTable

使用 data.table 包进行条件二进制连接和引用更新的相关文章

如何生成向量的所有组合[重复]

这个问题在这里已经有答案了假设我有 3 个绿球 2 个橙球和 8 个黄球我想订购它们鉴于所有相同颜色的球都是相同的如何生成所有可能的序列在 R 中使用gregmisc 我可以 balls lt c orange orange g
如何使用 r 中的 caret 包在最佳调整超参数的 10 倍交叉验证中获得每次折叠的预测？

我试图使用 R 中的插入符包使用 10 倍交叉验证和 3 次重复来运行 SVM 模型我想使用最佳调整的超参数获得每次折叠的预测结果我正在使用以下代码 Load packages library mlbench library caret
R 中的 NA 替换函数

我正在尝试替换矩阵中的 NA mat 零我在用着mat is na mat lt 0 当我有 18946 个变量的 94531 个观察值或更小的矩阵时效果很好但我在 22752 个变量的 112039 个观察值的矩阵上尝试它 R 显示
C# 优化：向数据库插入 2 亿行

我有以下简化的代码我想优化速度 long inputLen 50000000 50 million DataTable dataTable new DataTable DataRow dataRow object objectRow
如何在 R 中为传单中的数值变量设置不对称颜色渐变

我想让传单调色板以零为中心红白绿发散我已经尝试过中所说的这个帖子 https stackoverflow com questions 29262824 r center color palette on 0 当我尝试手动创建颜色时我得
在 R 中绘制对数正态概率密度

我正在尝试在 R 中生成对数正态概率密度图其中包含 3 个不同的均值对数和标准差对数我尝试了以下方法但我的图表太丑了看起来一点也不好看 x lt seq 0 10 length 100 a lt dlnorm x meanlog 0
将函数应用于 3d 数组的每一层，返回一个数组

假设您有一个包含行列和层的 3 维数组 A lt array 1 27 c 3 3 3 想象你有一个函数它接受一个矩阵作为输入并返回一个矩阵作为输出就像t 如何将该函数应用于数组的每一层返回与第一层大小相同的另一个数组我觉得我应该
将数据从 R 导出到 Excel

我试图将从 R 获得的一些结果导出到 Excel 中但未成功我尝试过以下代码 write table ALBERTA1 D ALBERTA1 txt sep t write csv ALBERTA1 ALBERTA1 csv your
解析，用三点参数替换

让我们考虑一个典型的deparse substitute R call f1 lt function u x y print deparse substitute x varU vu varX vx varY vy f1 u varU x
如何按 data.table 中的十分位数组计算统计数据

我有一个 data table 想按组计算统计数据 R set seed 1 R DT data table a rnorm 100 b rnorm 100 这些组应该定义为 R quantile DT a probs seq 1 9 1
为绘图制作 2D 图例 - 双变量分区统计图

我一直在玩双变量 choropleth 地图并且一直在如何创建类似于 2d 图例的问题上陷入困境约书亚史蒂文斯 http www joshuastevens net cartography make a bivariate chorop
如何将此“for”循环转换为向量解

这个问题与将嵌入其他文本的长州名称转换为两个字母的州缩写 https stackoverflow com questions 25582518 convert long state names embedded with other te
SQL 连接两个没有关系的表

我有具有相同结构的不同表我想通过其中一列将它们连接起来问题是他们不共享该专栏中的信息 Table 1 Type A Name Value Table 2 Type B Name Value 结果表在单列中 nameFromA name
C# 问题：加载 .MDB 文件、对其进行更改并将更改保存回原始文件的最简单方法是什么？

我正在进行的项目即将完成我正在加载一个 MDB 文件在 DataGrid 上显示内容并尝试在 DataGrid 上获取这些更改并将它们保存回 MDB 文件中我还将创建一个函数允许我从一个 MDB 文件中获取表并将其保存到另一个 M
使用 R 进行项目组织 [重复]

这个问题在这里已经有答案了可能的重复统计分析和报告撰写的工作流程 https stackoverflow com questions 1429907 workflow for statistical analysis and repor
为什么这些数字不相等？

下面的代码显然是错误的有什么问题 i lt 0 1 i lt i 0 05 i 1 0 15 if i 0 15 cat i equals 0 15 else cat i does not equal 0 15 i does not eq
带 R 的多彩标题

我想添加颜色某些词在我的图表标题中我已经能够在这里找到一些先例 http blog revolutionanalytics com 2009 01 multicolor text in r html 具体来说我希望用撇号括起来的文本在
表单提交时出现 rvest 错误

我想从以下网页中抓取数据 https swgoh gg u zozo collection 180 emperor palpatine https swgoh gg u zozo collection 180 emperor palpati
使用predictNLS围绕R中的拟合值创建置信区间？

我想使用 R 中 propogate 包中的 PredictNLS 围绕一大组拟合值构建置信区间作为示例我将使用它们在函数描述中引用的数据集 https rdrr io github anspiess propagate man pre
GGPLOT2：如何在 ggplot() 脚本中绘制特定选择

这是一个名为的大型数据集的峰值P 其中有 10 个优惠 CS 有不同的商店 SHP 具有多个数值数据集列出了按周排序的它们 WK 2 tm 52 它创建一个大文件仅前 6 行出现峰值 WK MND CS SHP RevCY RevLY

随机推荐

BSON |终端和非终端

阅读通过BSON规范 http bsonspec org specification我遇到了terminal and 非终结符其中的条款例如有效的BSON数据由文档表示非终结符以下基本类型用作终端在语法的其余部分 BSON 规范中的
使用程序集版本控制属性的最佳方法是什么？

The 汇编版本 http msdn microsoft com en us library system reflection assemblyversionattribute aspx and 程序集文件版本 http msdn mic
如何向/使用 RESTful WCF 服务传递和使用 JSON 参数？

我是 RESTful 服务的初学者我需要创建一个接口客户端需要在其中传递最多 9 个参数我更喜欢将参数作为 JSON 对象传递例如如果我的 JSON 是 age 100 name foo messages msg 1 msg 2
将朝鲜文音节分解为字母 (jamo)

我正在开发一个处理韩语句子的程序我需要一种方法将音节或块分解为其字母对于那些不懂韩文的人来说一个音节由 2 4 个字母 jamo 组成可以创建数千种不同的组合我想做的就是将这些音节分解成构成它的字母我能够通过将其 Unicode
在 Virtuoso 中定义端点

如何在 Virtuoso 中为我的本体定义新端点我能够通过 Virtuoso Conductor 的 RDF Store Upload 选项卡上传我的本体现在我需要定义一组端点以便能够通过 HTTP 在我的应用程序中使用它们 Virt
pandas 中的旋转问题（在 R 中传播）

我在使用 pandas 中的 pd pivot 或 hub table 函数时遇到一些问题我有这个 df pd DataFrame site id 0 a 1 a 2 b 3 b 4 c 5 c 6 a 7 a 8 b 9 b 10 c
Qt moc.exe 不生成 *.moc 文件

我正在尝试建立qtestlib tutorial1 示例但是testqstring moc当我运行时没有生成文件nmake 我在 Windows XP SP3 上运行 Qt 4 5 2 我复制了测试qstring cpp从教程目录到我的构
XSRF - 如何设置跨域 cookie

我开发了 REST API 和两个 JavaScript 客户端单页应用程序和本机应用程序基于电子在这两个客户端中我的用户都通过 OAuth2 流程进行身份验证将用户密码发送到服务器获取访问令牌以纯文本形式和刷新令牌以 h
仅将边框添加到换行文本的底部

我试图在一些换行文本上实现下划线该下划线适合底行文本的宽度同时仅出现在该底线下方图1说明了期望的效果 Figure 1 使用这个 HTML h2 span class inline block optatur volendit inu
加载TextureAtlas的状态

我在基于 LibGdx 的游戏中使用TextureAtlas 随着图集大小的增加加载时间也会增加因此显示我在游戏中设置的动画会出现延迟因此我希望获得纹理图集加载过程的状态 1 无论如何要获得状态吗 2 有听众吗您可以以已使用此方法加
如何在 swift ios 中刷新选项卡栏项目

我做的应用程序就像Instagram与选项卡栏项目在应用程序中我有simple user and company user 我有主视图控制器 MainTabBarController UITabBarController 有 5 个选项卡
当从 super() 运行方法时，为什么字段不初始化为非默认值？

我一定花了一个多小时试图找出一些意外行为的原因我最终意识到字段没有按我的预期设置在耸耸肩并继续之前我想了解为什么会这样在运行下面的示例时我希望输出为 true 但它是 false 其他测试表明我总是得到该类型的默认值 public
获取 OAuth 会话的过期时间

为了授予或撤销对我的 webapi 的访问权限我使用 OAuth 密码和令牌刷新工作流程如果我理解正确的话工作流程应该是这样的使用用户名密码客户端 ID 进行身份验证检索 accesstoken refreshtoken 和到
Swift：如何请求带有自签名证书的 URL？

我正在打开 SSL 连接以在 Swift 中检索 JSON 但正在使用自签名证书对我自己的服务器进行测试以下是 URL 请求的片段 var urlPath https myhost com get json var url NSURL N
将 NSMutableArray 保存到 NSUserDefaults 的最佳方法是什么？

我有一个名为 Occasion 的自定义对象定义如下 import
在 Highcharts 中动态附加加载或重绘事件函数

我需要在 Highcharts 中动态附加 onload 或 redraw 事件函数我知道在配置步骤中进行此操作例如 container highcharts chart events load function event funct
优化期间 Java 会内联方法吗？

我想知道 JVM javac 是否足够聪明来转动 This line string a foo string foo return bar string bar return some complicated string computat
使用 if(1 || !Foo()) 有什么理由吗？

我读了一些遗留代码 if 1 Foo 是否有任何不写的理由 if Foo 两者是not相同第一个永远不会评价Foo 因为1短路为什么这样做可能有人想强行进入then出于调试目的分支并将其留在那里也可能是这是在源代码控制之前编写的因
如何指定编辑器打开crontab文件？ “export EDITOR=vi”不起作用

我使用的是 Red Hat Enterprise Linux 5 我想设置 vim 编辑器来编辑 crontab 文件如果我跑echo EDITOR 我得到了活力但当我跑步时crontab e 我得到了不同的编辑器很可能你的VISUA
使用 data.table 包进行条件二进制连接和引用更新

这是我现实生活中的问题我觉得可以很容易地解决但我在这里遗漏了一些明显的东西我有两个大数据集TK and DFT library data table set seed 123 TK lt data table venue id rep

使用 data.table 包进行条件二进制连接和引用更新

使用 data.table 包进行条件二进制连接和引用更新 的相关文章

随机推荐

热门标签

使用 data.table 包进行条件二进制连接和引用更新的相关文章