仅当使用 data.table's := 连接两个表时才需要第一个实例

2024-01-24

我有一个policyData，它是我非常大的数据集（数百万行），我希望通过映射表（数万行）向其中添加一些信息。

Sample:

policyData <- data.table(plan=c("c","b","b","d"),v=c(8,7,5,6),foo=c(4,2,8,3))
mapping <- data.table(plan=c("b","b","a","a","c","c"),a=c(1,2,4,5,7,8),b=c(9,8,6,5,3,2))

政策数据：

   plan v foo
1:    c 8   4
2:    b 7   2
3:    b 5   8
4:    d 6   3

mapping:

   plan a b
1:    b 1 9
2:    b 2 8
3:    a 4 6
4:    a 5 5
5:    c 7 3
6:    c 8 2

问题是映射有多个实例，我希望只获得第一个匹配项。我需要使用内存有效的方式将两者结合起来:=.

期望的输出是：

   plan v foo  a  b
1:    c 8   4  7  3
2:    b 7   2  1  9
3:    b 5   8  1  9
4:    d 6   3 NA NA

我努力了：

policyData[mapping, on="plan", `:=`(a=i.a, b=i.b)]

它给出了映射表中的最后一个实例：

   plan v foo  a  b
1:    c 8   4  8  2
2:    b 7   2  2  8
3:    b 5   8  2  8
4:    d 6   3 NA NA

我也尝试过：

policyData[mapping, on="plan", `:=`(a=i.a, b=i.b), mult="first"]

这给出了奇怪的结果（第二个“b”无法与映射匹配）：

   plan v foo  a  b
1:    c 8   4  8  2
2:    b 7   2  2  8
3:    b 5   8 NA NA
4:    d 6   3 NA NA

任何见解都会有所帮助。我已经做了很多搜索。

简单总结一下mapping with mapping[, .SD[1], by = plan]并使用它来加入：

policyData[mapping[, .SD[1], by = plan]
           , on = .(plan)
           , `:=` (a = i.a, b = i.b)]

这给出了所需的输出：

> policyData
   plan v foo  a  b
1:    c 8   4  7  3
2:    b 7   2  1  9
3:    b 5   8  1  9
4:    d 6   3 NA NA

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

join

MERGE

dataTable

仅当使用 data.table's := 连接两个表时才需要第一个实例的相关文章

ggplot2可以在一个图例中分别控制点大小和线大小（线宽）吗？

一个使用的例子ggplot2绘制数据点组和连接每组均值的线并使用相同的映射aes for shape并为linetype p lt ggplot mtcars aes gear mpg shape factor cyl linetype
基于另一个数据集获取数据集的子集

假设我有一个数据集即 dat1 ID block plot SPID TotHeight 1 1 1 4 44 5 2 1 1 4 51 3 1 1 4 28 7 4 1 1 4 24 5 5 1 1 4 27 3 6 1 1 4 20
R 中具有稳健回归的异常值

我正在使用lmrobR 中的函数使用robustbase用于稳健回归的库我会把它用作 rob reg lt lmrob y 0 dat method MM control a1 当我想返回我使用的摘要时summary rob reg 稳健
R foreach问题（某些进程返回NULL）

我遇到了问题foreach我正在 R 中使用的程序的一部分该程序用于运行不同参数的模拟然后将结果返回到单个列表然后用于生成报告当并非所有分配的模拟运行都在报告上实际可见时就会出现问题从各方面来看似乎只有分配的运行的一个子集实际
正则表达式字符串中第一个和最后一个非点的位置

我希望找到字符串的第一个和最后一个非点元素的位置理想情况下我想这样做regex在基地R 我已经写过R解决问题的代码不过我对一个感兴趣regex解决方案感谢您的任何建议这是一个示例数据集和R代码以获得所需的结果此代码拆分字符串并使
仅使用扩展方法在 Linq 中进行漂亮、干净的交叉连接 [重复]

这个问题在这里已经有答案了可能的重复使用扩展方法表示的嵌套 from LINQ 查询 https stackoverflow com questions 9115675 nested from linq query expressed
纵向序列数据的三次样条方法？

我有一个串行数据格式如下 time milk Animal ID 30 25 6 1 31 27 2 1 32 24 4 1 33 17 4 1 34 33 6 1 35 25 4 1 33 29 4 2 34 25 4 2 35 24
如何使用 R 计算成为列表中中位数的概率？

假设我有以下数据集其中显示了假设实验的每个状态的三个观察结果的列表 state lt c Iowa Minnesota Illinois outcome lt list c 5 11 11 c 3 12 8 c 9 14 2 dat lt
neo4j cypher更新现有节点或创建新节点

我有一个包含大约 900 万个节点和 1200 万个关系的图对于图中的每个节点每个节点都有一个属性子集这些属性通过标签形成节点的唯一标识该图正在通过各种数据源进行更新这些数据源会增加图中的现有节点或者在节点不存在时创建新节点我
kernlab 中 SVM 训练之外的核矩阵计算

我正在开发一种新算法该算法可以生成修改后的核矩阵以用于 SVM 训练但遇到了一个奇怪的问题出于测试目的我比较了使用 kernelMatrix 接口和普通内核接口学习的 SVM 模型例如 Model with kernelMatri
从命令行运行 R 代码 (Windows)

我在名为 analysis r 的文件中有一些 R 代码我希望能够从命令行 CMD 运行该文件中的代码而无需通过 R 终端并且我还希望能够传递参数并在我的代码中使用这些参数例如就像下面的伪代码 C gt execute r scri
有没有可以在 HTML 文档之间进行比较的 ruby gem？

事实证明对两个不同的 html 文档进行比较是一个完全不同的问题而不仅仅是对纯文本进行比较例如如果我在以下之间进行简单的 LCS 差异 Google and Google diff 结果不是 but a gt github com
R 中的列乘以子字符串

假设我有一个数据框其中包含多个组件及其在多个列中列出的属性并且我想对这些列运行多个函数我的方法是尝试将其基于每个列标题中的子字符串但我无法弄清楚如何做到这一点下面是数据框的示例 Basket F Type 1 F Qty 1 F
只读取选定的列

谁能告诉我如何仅读取下面每年数据的前 6 个月 7 列例如使用read table Year Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2009 41 27 25 31 31 39 2
合并 2 个大型 CSS 文件的有效方法

我正在寻找一个可以合并 2 个大型 CSS 文件的工具到目前为止我尝试过的所有方法例如CSSMerge 都没有成功其中一些只是随机删除属性其他人则因 webkit 和 moz 等非标准属性而窒息并给我错误我还需要保留每条规则大小
使用 Shiny 发布平行坐标图表时出现“错误：路径[1]="”：没有这样的文件或目录”

我有一个似乎很常见但我还没有找到解决方案的问题当尝试使用 rCharts Parcoords 发布 Web 应用程序时出现以下错误错误路径 1 没有这样的文件或目录奇怪的是该应用程序在我的笔记本电脑上运行得很好下面是我正在使用
git Blame：合并后正确的作者

GIT 合并引入了新的提交这会导致 git Blame 问题合并的行似乎是由进行合并的开发人员提交的我可以理解这种情况冲突的变化因为他解决了冲突但是有没有办法让非冲突线路不发生这种情况呢一些 git Blame 的选择如果没有
ddply 和aggregate 之间的区别

有人可以通过以下示例帮助我了解聚合和 ddply 之间的区别数据框 mydat lt data frame first rpois 10 10 second rpois 10 10 third rpois 10 10 group c re
在 r 中的 group_by 之后建模后取消列表列的嵌套

我想对所有组进行线性回归group by 将模型系数保存在列表列中然后使用 unnest 扩展列表列这里我用的是mtcars以数据集为例注我想用do here becausebroom tidy 不适用于所有型号 mtcars gt
相当于 min() 的 rowMeans()

我在 R 邮件列表上多次看到这个问题但仍然找不到满意的答案假设我有一个矩阵m m lt matrix rnorm 10000000 ncol 10 我可以通过以下方式获得每行的平均值 system time rowMeans m use

随机推荐

何时对片段使用 onCreateView？

我正在按照以下步骤操作 http developer android com training basics fragments creating html AddInLayout http developer android com tr
“Image Literal”命令在 Xcode 中不起作用

我开始学习 swift 语言有一个命令 Image Literal 可以添加图像但它没有显示任何内容除此之外如果我尝试任何其他编码它会自动得到建议但图像文字根本不起作用我正在使用 Xcode 13 任何线索都会非常有帮助对于
Blazor客户端发送电子邮件

我在 Razor 页面中包含了一个联系表单以便用户可以在其中填写他的电子邮件主题和正文当他提交时电子邮件会发送到我的电子邮件地址我的代码看起来像这样example https learn microsoft com fr fr d
为什么 C++11 允许 GC？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
Swift - 查找字符串中两个位置之间的子字符串

我有一个格式如下的字符串 XbfdASF FBACasc Piida bfedsSA XbbnSF vsdfAs 基本上它是一个 ID ID 然后又重复我有第一个 ID 我需要找到它的合作伙伴示例我有 Piida 我需要找到之后紧随其
php 中的 mkdir() 将文件夹权限设置为 755 但我需要 777？

我试图使用 php 在我的服务器上创建一个文件夹当我将其设置为 0777 时它显示为 755 mkdir create path 0777 谢谢尝试这个 old umask umask 0 mkdir create path 0777
MongoDB $lookup 对带有引用 objectId 的对象数组进行查找

我有订单集合我正在从中获取数据如下所示 id 628216b7b30bb8aa80c8fd1a promotionsDetails companyTotalPrice 27 promotionsData id 621de063bb5f9
如何从函数标记的页面源代码中获取值？

这是源代码中的函数 function dosubmit if getObj Frm Username value getObj errmsg innerHTML Username cannot be empty getObj myLayer
Android 互联网连接检查更好的方法

根据 Android 开发者网站确定和监控连接状态 https developer android com training monitoring device state connectivity monitoring html 我们可
ggplot2：scale_alpha() 的阈值

是否可以指定色标的阈值看这个例子 xy lt expand grid x 1 20 y 1 20 xyd lt data frame xy z runif 400 a rowSums xy 40 g lt ggplot xyd aes x
SharePoint 2007：如何限制字段级别的访问？

是否可以在 SharePoint 2007 列表 MOSS 尽管我不认为这是企业版中允许一个 SharePoint 组中的用户编辑某些字段中的值而另一组中的用户编辑其他字段中的值从我所做的所有搜索来看这似乎是不可能的因此作为后备
当我们使用核心数据时，我们应该创建模型类吗？

我正在开发一个 iPad 应用程序如果用户无法访问互联网则需要我在本地存储数据然后与后端数据库同步对于本地存储我计划将 Core Data 与 SQLite 结合使用我第一次使用 Core Data 它似乎检索实体并以字典的形式
我需要一种人类可读且可解析的文档格式

我正在从事其中一个项目其中有一百万种更好的方法来完成我所需要的但我别无选择我必须这样做这里是有一个网络表单当用户填写并点击提交时将使用表单数据创建人类可读的文本文件它看起来像这样 field 1 value for fiel
将文件上传到 Google Cloud Storage：500 后端错误

我们尝试将文件上传到 Google Cloud Storage 然后再将其移至 BigQuery 但在某些上传过程中我们经常遇到 500 内部服务器错误或 410 消失原始消息如下我们使用的是官方 SDK 并添加了指数退避重试但错
- 声明时变量的默认值 -

我想知道在初始化变量之前变量的默认值是什么例如如果我这样做 myClass h BOOL myBOOL default value NSArray myArray default value NSUInteger myInteger d
Angular - 单击时更改 Font Awesome 图标颜色

我使用以下 HTML 创建了一个名为 like 的组件 div i class fas fa heart i div 当我单击图标时它应该更改变量 isActive 因此图标的颜色也应该改变这是 ts onClick this isAc
如何处理来自“不透明”类型的获取响应？

我正在尝试正确解释对 URL 的 fetch 调用的响应我认为它是一个 json 字符串我已经根据这里的类似帖子尝试了许多变体但没有任何东西可以让我使用有用的数据这是一种尝试 fetch http serverURL api rea
Safari 中的音频标签

我有以下 html
混合 TypeScript 和 Meteor - 跨多个文件的类

对任何不正确的术语表示歉意对于那些不熟悉 Meteor 的人来说它有明确定义的脚本加载顺序 https stackoverflow com questions 10693113 how do i change the order in
仅当使用 data.table's := 连接两个表时才需要第一个实例

我有一个policyData 它是我非常大的数据集数百万行我希望通过映射表数万行向其中添加一些信息 Sample policyData lt data table plan c c b b d v c 8 7 5 6 foo c 4

仅当使用 data.table's := 连接两个表时才需要第一个实例

仅当使用 data.table's := 连接两个表时才需要第一个实例 的相关文章

随机推荐

热门标签

仅当使用 data.table's := 连接两个表时才需要第一个实例的相关文章