使用 OR 条件左连接两个 R 数据框

2024-03-31

Problem

我有两个数据框，我想使用三个非数字变量的条件语句来连接它们。这是我想要实现的伪代码版本。

Join DF1 and DF2 on DF1$A == DF2$A | DF1$A == DF2$B

Dataset

这是创建两个数据框的一些代码。variant_index是将用于注释的数据框input用一个left_join:

library(dplyr)
options(stringsAsFactors = FALSE)

set.seed(5)
variant_index <- data.frame(
  rsid   = rep(sapply(1:5, function(x) paste0(c("rs", sample(0:9, 8, replace = TRUE)), collapse = "")), each = 2),
  chrom  = rep(sample(1:22, 5), each = 2),
  ref    = rep(sample(c("A", "T", "C", "G"), 5, replace = TRUE), each = 2),
  alt    = sample(c("A", "T", "C", "G"), 10, replace = TRUE),
  eaf    = runif(10),
  stringAsFactors = FALSE
)
variant_index[1, "alt"] <- "T"
variant_index[8, "alt"] <- "A"

input <- variant_index[seq(1, 10, 2), ] %>%
  select(rsid, chrom)
input$assessed <- c("G", "C", "T", "A", "T")

我尝试过的

我想表演一个left_join on input来注释eaf专栏来自variant_index。正如你可以看到input数据框，其assessed列可以匹配input$ref或与input$alt. The rsid and chrom列将始终匹配。

我知道我可以在by的论证left_join，但如果我理解正确的话，条件总是

input$assessed == variant_index$ref & input$assessed == variant_index$alt

而我想实现

input$assessed == variant_index$ref | input$assessed == variant_index$alt

可能的解决方案

可以像这样获得所需的输出：

input %>% 
  left_join(variant_index) %>% 
  filter(assessed == ref | assessed == alt)

但对我来说这似乎不是最好的解决方案，因为我可能会生成双倍的行，并且希望将此连接应用于包含 100M+ 行的数据帧。有更好的解决方案吗？

复杂的连接在 SQL 中是直接的：

library(sqldf)

sqldf("select *
  from variant_index v
  join input i on i.assessed = v.ref or i.assessed = v.alt")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

DataFrame

join

dplyr

使用 OR 条件左连接两个 R 数据框的相关文章

为什么 PostgreSQL 不能做这个简单的 FULL JOIN 呢？

这是包含 2 个表的最小设置a and b每行 3 行 CREATE TABLE a id SERIAL PRIMARY KEY value TEXT CREATE INDEX ON a value CREATE TABLE b id SE
如何在 R 中为传单中的数值变量设置不对称颜色渐变

我想让传单调色板以零为中心红白绿发散我已经尝试过中所说的这个帖子 https stackoverflow com questions 29262824 r center color palette on 0 当我尝试手动创建颜色时我得
R 中的发散积分可在 Wolfram 中求解

我知道我以前问过同样的问题但由于我是新来的这个问题问得不好而且不可重现因此我在这里尝试做得更好如果我只编辑旧的可能没有人会读它我有一个想要积分的二重积分 ff lt function g t exp 16 g exp 8 t t
在 R 中绘制对数正态概率密度

我正在尝试在 R 中生成对数正态概率密度图其中包含 3 个不同的均值对数和标准差对数我尝试了以下方法但我的图表太丑了看起来一点也不好看 x lt seq 0 10 length 100 a lt dlnorm x meanlog 0
从 R 环境中删除对象

我正在阅读 Hadley 的 Advanced R 在第 8 章中他说我们可以使用以下方法从环境中删除对象 rm 但是移除该物体后我仍然可以看到该物体这是我的代码 e lt new env e a lt 1 e b lt 2 e a
根据标点符号列表替换数据框中的标点符号[重复]

这个问题在这里已经有答案了使用 Canopy 和 Pandas 我有数据框 a 其定义如下 a pd read csv text txt df pd DataFrame a df columns test test txt 是一个单列文件
将 VLMC 拟合到很长的序列

我正在尝试将 VLMC 拟合到最长序列为 296 个状态的数据集我这样做如下所示 Load libraries library PST library RCurl library TraMineR Load and transform d
如何更改 Shiny 中 navbarPage 折叠的断点

我想用shiny navbarPage collapsible TRUE 当在小屏幕上查看我的 Shiny 应用程序时将导航元素折叠到菜单中默认情况下当浏览器宽度小于 940 像素时会触发折叠有什么方法可以改变这一点以便在稍大的浏
R 更改小数位且不四舍五入

gt signif 1 89 digits 2 1 1 9 我想要1 8 这有点笨拙但它会起作用并保持所有数字 x lt 1 829380 trunc dec lt function x n floor x 10 n 10 n Resul
仅保留百分比的尾随零

给出以下示例 library pander tableAbs lt Titanic 1 1 tablePct lt round prop table tableAbs 100 2 table lt cbind tableAbs tableP
将数据从 R 导出到 Excel

我试图将从 R 获得的一些结果导出到 Excel 中但未成功我尝试过以下代码 write table ALBERTA1 D ALBERTA1 txt sep t write csv ALBERTA1 ALBERTA1 csv your
fread 将空导入为 NA

我正在尝试导入带有空白的 csv 读取为不幸的是他们都读作 NA now 为了更好地演示问题我还展示了如何NA NA and 都映射到同一事物除了最底部的示例这将妨碍简单的解决方法dt is na dt lt gt write cs
为什么这些数字不相等？

下面的代码显然是错误的有什么问题 i lt 0 1 i lt i 0 05 i 1 0 15 if i 0 15 cat i equals 0 15 else cat i does not equal 0 15 i does not eq
有没有一种简单的方法来判断存储在一个列表中的许多数据帧是否包含相同的列？

我有一个包含许多数据框的列表 df1 lt data frame A 1 5 B 2 6 C LETTERS 1 5 df2 lt data frame A 1 5 B 2 6 C LETTERS 1 5 df3 lt data frame
R - 通过覆盖和递归合并列表

假设我有两个带有名字的列表 a list a 1 b 2 c list d 1 e 2 d list a 1 b 2 b list a 2 c list e 1 f 2 d 3 e 2 我想递归地合并这些列表如果第二个参数包含冲突的值则
如何在R中同时对三个字段进行网络分析

如何在 R 中同时对三个字段进行网络分析下面是示例数据以及desired output在最后一栏中 df lt data frame stringsAsFactors FALSE id 1 c ABC ABC BCD CDE DEF EF
使用 dplyr::filter 的整洁方式是什么？

使用下面的函数调用foo c b 输出以内联方式显示正确的写作方式是什么df gt filter x gt x 我已经包含了一个使用的示例mutate以整洁的风格与之对比filter foo lt function variables x
如何匹配 R 中的所有匹配项？

我有 1000 个名字的列表说A 我还有另外 5 个名字的清单说B 我想找出这5个名字出现在1000个号码列表中的第几行例如 Amy 在 A 中可以出现 25 次 B 里有艾米我想知道 Amy 出现在 A 中的哪些行我以前使用过
Pandas 组合不同索引的数据帧

我有两个数据框df 1 and df 2具有不同的索引和列但是有一些索引和列重叠我创建了一个数据框df索引和列的并集因此不存在重复的索引或列我想填写数据框df通过以下方式 for x in df index for y in df
使用predictNLS围绕R中的拟合值创建置信区间？

我想使用 R 中 propogate 包中的 PredictNLS 围绕一大组拟合值构建置信区间作为示例我将使用它们在函数描述中引用的数据集 https rdrr io github anspiess propagate man pre

随机推荐

VSCode 是否应该报告从编译中排除的 TS 文件的错误？

我提交了这个错误报告 https github com Microsoft vscode issues 53733 issuecomment 403153218使用 VSCode 因为我已经排除了 spec编译中的文件因为我不想将这些文件
自动任务和静态任务有什么区别，为什么我们不能通过引用传递静态任务

静态任务和自动任务有什么区别 program class ref int index value class holding values int ass array task assign value int value int inde
LinearSVC.coef_ 中的 n_classes 顺序

我正在与 LinearSVC 合作将文本数据分为 3 类输入数据是每个单词的 tfidf 分数我有兴趣了解单词对分类的贡献第一个问题是我可以使用 coef 吗文档指出 coef 数组形状 n features 如果 n clas
使用 cakephp 获取名称显示在下拉列表中

我想在下拉列表中显示我们所有项目负责人的姓名项目负责人只是公司的部分员工这是我的表格 project leaders id hr employee id 1 18 projects id name project leader id 1
R 基本函数根据长度对字符串向量进行排序

我想知道 R 基础包中是否已经有一个函数可以对字符串向量进行排序同时考虑每个元素的长度当然还有字典顺序例如在一个sort调用一些包含您将拥有的年龄组的向量 v lt c 00 04 05 09 10 14 100 104 105 10
Matter.js 用于碰撞检测

我对在这里提问还比较陌生所以请耐心等待我正在尝试使用 Matter js 作为主要物理引擎创建一个自上而下的驾驶游戏我希望红色汽车与绿色方块相撞然而我仍然坚持知道如何在我的游戏中实现 Matter js 任何形式的回应将不胜感激
如何在 R 中创建具有特定间隔的向量？

我有一个关于创建向量的问题如果我做a lt 1 10 a 的值为 1 2 3 4 5 6 7 8 9 10 我的问题是如何创建一个元素之间具有特定间隔的向量例如我想创建一个具有从 1 到 100 的值的向量但仅以 5 为间隔进行计数
如何将config.properties转换为键值对？

我正在尝试将 java 属性文件转换为可以在 jquery 中使用的键值对属性文件发送如下所示的信息 company1 Google company2 eBay company3 Yahoo 我想要这种形式 var obj company
Flutter - 主动检查是否按下了特殊键（如 ctrl）

Question How to actively check if a certain decoration key is pressed like CTRL or SHIFT like if SomeKeyboardRelatedServ
在 Spring Boot 应用程序的生产中使用 Tomcat

作为 Spring Boot 的新手我需要了解以下内容因为我无法直接找到谷歌结果他们在现实生活中真正使用哪些应用程序服务器来部署这些 Spring Boot 应用程序 Tomcat 真的被公司使用吗如果是的话他们是通过集群来实现的
在 WCF 代理中实现 Ws 安全

我已将基于轴的 wsdl 导入到 VS 2008 项目中作为服务参考我需要能够传递安全详细信息例如用户名密码和随机数值来调用基于轴的服务我已经考虑过为 wse 做这件事我知道世界讨厌它那里没有问题我对 WCF 的经验很少但
如何更新StackPanel的布局？

问题是如果您单击按钮并展开电话号码堆栈面板和边框会展开这很好但如果您折叠它堆栈面板和边框不会折叠
使用 Robolectric 更改配置

为了在配置更改时保留 AsyncTasks 我使用基于片段的解决方案和 setRetainInstance true 它托管每个 AsyncTask 并回调侦听 Activity 类似于此解决方案http www androiddesign
Typescript 属性“property”在类型“void | ”上不存在样本

根据打字稿void is a 超类型 https www typescriptlang org docs handbook basic types html void of the null and undefined类型因此具有 vo
Silverlight 3.0 - 如何从 UserControl 访问 MainPage 控件值

我需要从 MainPage 检索一些控件值到 UserControl 在此 UserControl 中我需要能够获取 Frame ActualWidth 和 Frame ActualHeight 值在本例中 Frame 元素位于 Mai
如何在普通的非Android Java应用程序中使用NDK编译的JNI库？

我有一个 JNI 库供 Android 应用程序与 NDK 一起使用我没有源代码只是为某些拱门编译了 so 文件我想在 64 位 x86 Linux PC 上的简单控制台 Java 应用程序中调用该库中的函数我做了什么我从 x8
Google Spanner 中的 TrueTime API 是什么？

我多次尝试阅读该文档但未能理解它有人可以用通俗的语言解释一下吗 TrueTime 是 Google 提供的一个 API 可直接暴露时钟不确定性相比标准日期时间库 https docs python org 2 library date
如何取消使用锚标记放置的复选框的分组

我们在文档中使用 AnchorTags 将签名元素放入 PDF 文档中到目前为止诸如 SignHere 之类的签名元素已按预期工作每个签名只需单击一下即可正确放入文档中我们现在尝试使用 AnchorTags 将复选框添加到这些文档
使用 GORM 在 MySQL 中获取 NULL 日期时间值

我想获取最后一个 Visit details 行其 out time 为NULL使用戈尔姆 NIL本身是一种类型其中 VisitDetail OutTime 是mysql NullTime Code var visitDetail mo
使用 OR 条件左连接两个 R 数据框

Problem 我有两个数据框我想使用三个非数字变量的条件语句来连接它们这是我想要实现的伪代码版本 Join DF1 and DF2 on DF1 A DF2 A DF1 A DF2 B Dataset 这是创建两个数据框的一些代码 v