根据 R 中另一个数据帧中给出的条件，用 NA 替换数据帧中的多个值

2024-05-06

使用 R，我想根据另一个数据框中包含的条件将数据框中的数值替换为 NA：

# An example data frame with numeric values I want to  
# change to `NA` based on values given in another data frame.
df1 <- tibble::tribble(
  ~col_1, ~col_2, ~col_3, ~group, ~subgroup,
  1,      3,      5,     'A',    'p',
  6,      8,      5,     'A',    'q',
  5,      3,      3,     'B',    'p',
  1,      7,      7,     'B',    'q'
)

# A second data frame containing conditions  
# to be used for subsetting the first data frame.
df2 <- tibble::tribble(
  ~group, ~subgroup, ~cols,
  'A',    'q',       'col_1',
  'A',    'q',       'col_3',
  'B',    'p',       'col_2', 
  'B',    'p',       'col_3'
)

# My problematic approach to subsetting df1 and replacing 
# values with `NA` based on the conditions given in df2.
df1[df1$group %in% unique(df2$group) & 
    df1$subgroup %in% unique(df2$subgroup), 
    unique(df2$cols)] <- NA

# The incorrect result of my approach.
print(df1)
# A tibble: 4 × 5
  col_1 col_2 col_3 group subgroup
  <dbl> <dbl> <dbl> <chr> <chr>   
1    NA    NA    NA A     p       
2    NA    NA    NA A     q       
3    NA    NA    NA B     p       
4    NA    NA    NA B     q

^{Created on 2021-09-20 by the reprex package https://reprex.tidyverse.org (v2.0.1)}

我的策略是使用 TRUE 索引对 df1 进行子集化，其中 df1 观测值与 df2 匹配并使用]<-NA用 NA 替换这些观察结果。然而，我的方法选择了所有观察结果，而不是仅替换 df2 中指示的观察结果的期望结果。

如何在不手动替换的情况下以功能/编程方式执行此操作？此示例数据集足够小，可以使用]<-我想要替换的每个值的方法，但我想在更大、更复杂的数据集上功能性地执行此操作。

解决方案和注意事项：@Ronak 和 @akrun 提供的两种解决方案都适用于本问题中的示例数据集。然而，在我的真实数据集中发现重复的子组和组值的罕见情况后，我发现只有 @akrun 的解决方案有效。下面我添加了另一个示例，该示例重新创建了我在真实数据中观察到的罕见情况，并添加了 @Ronak 对解决方案的修改，使其适用于这些重复。

# Unique numeric observations were added
# in rows 1 and 2 with group and subgroup
# values that are duplicated with existing
# group and subgroup values.
df1 <- tibble::tribble(
  ~col_1, ~col_2, ~col_3, ~group, ~subgroup,
  7, 4, 9, "A", "p",
  1, 3, 5, "A", "p",
  6, 8, 5, "A", "q",
  5, 3, 3, "B", "p",
  1, 7, 7, "B", "q"
)

# Conditions were added in rows 1 and 2
# to indicate which values to replace
# in df1 with NA.
df2 <- tibble::tribble(
  ~group, ~subgroup, ~cols,
  "A",    "p",       "col_1",
  "A",    "p",       "col_2",
  "A",    "q",       "col_1",
  "A",    "q",       "col_3",
  "B",    "p",       "col_2",
  "B",    "p",       "col_3"
)

# Modifications of @Ronak's solution
df1 <- as.data.frame(df1)
df2 <- as.data.frame(df2)

key1 <- lapply(
  setNames(names(df1)[grep("col_\\d", x = names(df1))], 1:3),
  function(x) {
    paste(x, df1$group, df1$subgroup)
  }
)

key2 <- with(df2, paste(cols, group, subgroup))

indices <- lapply(
  key1,
  function(x) {
    which(x %in% key2)
  }
)

indices <- indices[sapply(indices, function(x) length(x) > 0)]

selection <- lapply(
  1:length(indices),
  function(x) {
    cbind(indices[[x]], as.numeric(names(indices)[x]))
  }
)

selection <- do.call(rbind, selection)
df1[selection] <- NA
df1
#   col_1 col_2 col_3 group subgroup
# 1    NA    NA     9     A        p
# 2    NA    NA     5     A        p
# 3    NA     8    NA     A        q
# 4     5    NA    NA     B        p
# 5     1     7     7     B        q

这是一种分配方法，即循环across列starts_with第一个数据集（“df1”）中的“col”，通过以下方式创建单个字符串向量pasteing“组”、“子组”和相应的列名称（cur_column())，检查该元素是否是%in% the pasted 行“df2”来创建逻辑向量。使用它replace将这些元素替换为NA

library(dplyr)
library(stringr)
library(purrr)
df1 <- df1 %>% 
   mutate(across(starts_with('col'), 
   ~ replace(., str_c(group, subgroup, cur_column()) %in%  
        invoke(str_c, c(df2, sep = '')), NA) ))

-output

df1
# A tibble: 4 x 5
  col_1 col_2 col_3 group subgroup
  <dbl> <dbl> <dbl> <chr> <chr>   
1     1     3     5 A     p       
2    NA     8    NA A     q       
3     5    NA    NA B     p       
4     1     7     7 B     q

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

tidyverse

根据 R 中另一个数据帧中给出的条件，用 NA 替换数据帧中的多个值的相关文章

在 R 中向散点图添加线条

如何向图表添加线条我做了以下 dat lt data frame xvar 1 20 rnorm 20 sd 10 yvar 1 20 rnorm 20 sd 10 zvar 1 20 rnorm 20 sd 10 plot dat 1
R - Plm 和 lm - 固定效应

我有一个平衡面板数据集 df 本质上由三个变量组成 A B and Y 对于一堆独特识别的区域来说它会随着时间的推移而变化我想运行一个回归其中包括区域下面等式中的区域和时间年份固定效应如果我没记错的话我可以通过不同的方式来
pyomo + 网状错误 6 句柄无效

我正在尝试运行pyomo优化我收到错误消息 Error 6 The handle is invalid 不知道如何解释它环顾四周似乎与特权有关但我不太明白在下面找到完整的错误跟踪以及重现它的玩具示例完整的错误跟踪 py run f
从命令行运行 R 代码 (Windows)

我在名为 analysis r 的文件中有一些 R 代码我希望能够从命令行 CMD 运行该文件中的代码而无需通过 R 终端并且我还希望能够传递参数并在我的代码中使用这些参数例如就像下面的伪代码 C gt execute r scri
R独特的列或行与NA无可比拟

有谁知道如果incomparables的论证unique or duplicated 曾经被实施过incomparables FALSE 也许我不明白它应该如何工作无论如何我正在寻找一个巧妙的解决方案以仅保留与另一列相同的唯一列或行
使用 R 选择第一个非 NA 值

df lt data frame ID c 1 1 1 2 3 3 3 test c NA 5 5 6 4 NA 7 3 NA 10 9 我想创建一个名为 value 的变量它是每个单独 ID 测试的第一个非 NA 值对于只有NA的个体
ggplot2 geom_密度和geom_histogram在一个图中

如何制作一个所有条形加起来为 1 的直方图并在适合的上方添加一个密度层 set seed 1234 df lt data frame sex factor rep c F M each 200 weight round c rnorm 2
朴素贝叶斯分类器仅基于先验概率做出决策

我试图根据推文的情绪将推文分为三类买入持有卖出我正在使用 R 和包 e1071 我有两个数据框一个训练集和一组需要预测情绪的新推文训练集数据框 text sentiment this stock is a good buy Bu
如何从 R keras 中的类似生成器的数据中评估（）和预测（）

我有以下代码数据集可以下载here https www dropbox com s qjt5o31oyqj10m8 data tar gz dl 0 or here https www kaggle com c dogs vs cats
计算 R 中各列的唯一值

我正在尝试创建一个新变量其中包含来自两个不同列的字符串值的唯一计数所以我有这样的东西例如 A tibble 4 x 2 names partners
如何在 R 或 Python 中制作旭日图？

到目前为止我一直无法找到一个可以创建旭日图的 R 库约翰斯塔斯科 http www cc gatech edu gvu ii sunburst 有人知道如何在 R 或 Python 中实现这一点吗在极坐标投影中使用 matplotli
如何在 R 中匹配多个 ggplot2 图中的调色板？

自从被问到这个问题以来已经有一段时间了但我知道一个事实我很快就会提取新数据我想弄清楚如何用这种技术来绘制它看起来评论和答案中的人知道如何做到这一点但我无法完全弄清楚所给我的内容还有人想尝试一下吗我正在尝试使用具有多个级别的因子
read_html(url) 和 read_html(content(GET(url), "text")) 之间的区别

我正在看这个很棒的答案 https stackoverflow com a 58211397 3502164 https stackoverflow com a 58211397 3502164 解决方案的开头包括 library httr
R“错误：“}”中出现意外的“}”[重复]

这个问题在这里已经有答案了我有一个字符串变量对于缺少数据的情况它具有空值我想将空值重新编码为缺失而不是说空值我正在尝试编写一个循环来删除这些空值条目但我不断收到错误错误中出现意外的 for row in dat
如何在将两根柱子保持在一起的同时熔化柱子？

我有这种宽格式的数据我想将其转换为长格式 Cond Construct Line Plant Tube shoot weight shoot Tube root weight root 1 Standard NA NA 2 199 95
SPSS 中的标准化残差与 R rstandard(lm()) 不匹配

在寻找 R 相关解决方案时我发现 R 和 SPSS 版本 24 在计算简单线性模型中的标准化残差方面存在一些不一致看来SPSS所谓的标准化残差匹配 R学生化残差我完全不认为某处存在软件错误但显然这两个程序之间存在差异看看这个例子
任意列中包含字符串的子集行

我有一个如下所示的数据集 Col1 Col2 Col3 abckel NA 7 jdmelw njabc NA 8 jdken jdne 如何对数据集进行子集化使其仅保留包含字符串 abc 的行最终预期输出 Col1 Col2 Col3
Shiny：动态数据框构建； renderUI、观察、reactiveValues

我认为如何使用 Shiny 的 renderUI 功能动态子集数据的问题经常出现但我很难理解何时使用 renderUI 带有 uiOutput 而不是其他功能包括观察反应反应值甚至条件面板我想构建一个完全交互式的数据框架其中每个
如何使用 tidymodels 和工作流集在同一数据集上拟合多个不同的线性模型

我想评估同一数据集上多个主要是线性回归模型的性能我想也许使用tidymodels包连同workflowsets workflow set 可能会起作用我按照这个例子here https workflowsets tidymodels
如何将plot中的单变量列表图表转换为ggplot2格式？

我正在搜索但仍然找不到一个非常简单的问题的答案我们如何使用 R 中的 ggplot2 生成一个变量的简单线图我正在分析时间序列数据并且想要对图表进行更复杂的操作我认为如果我使用 ggplot2 代替会更好plot It works

随机推荐

尝试使用 x86 程序集 GNU GAS 在数组索引处赋值时出现错误

我在用x86GNU 与 GCC 的程序集并尝试实现相当于以下内容的程序集c c int x 10 x 0 5 但是当我尝试运行使用命令 a out 我的汇编代码如下第一次编译后gcc filename s 错误Segmentatio
javascript while循环在节点和浏览器中给出不同的结果

我正在执行以下看似简单的代码 var number 0 while number lt 12 console log number number number 2 我在浏览器和 Node 中得到不同的结果当我在 Firefox v 32
无法在 R 中安装插入符号包（在我的 Linux 机器中）

我在尝试在 R 中安装插入符号包时遇到以下错误 g error tmp Rtmp2Tos7n R INSTALL2e6e30153a74 nloptr nlopt 2 4 2 lib libnlopt cxx a No such file
动态改变ListView中TextView字体颜色

我正在将 XML 文档绑定到自定义适配器列表中的所有项目最初的字体颜色均为白色 XML 文档中的一个节点有一个我正在检查的属性如果设置了该属性我想将 ListView 中该项目的字体颜色更改为较深的颜色我的代码似乎最初可以工作但是
Gnuplot：具有置信区间的线点

我有以下数据我想绘制一个图表显示所有 x 与线线点连接的平均值并显示所有置信区间 ci lower ci upper 我设法使用 2 个图来做到这一点 set xrange 0 1100000 set yrange 0 5000
如何用 Java 或 C# 等语言实现统一算法？

我正在读我拿到的人工智能教科书我已经解决了我的部分的最后一个作业问题以您选择的任何语言实施第 69 页概述的统一算法在第 69 页您有以下统一算法的伪代码 function unify E1 E2 begin case both E
Codeigniter - 错误 - 没有要更新的数据

我本来要更新数据库但收到错误没有要更新的数据这是我的脚本我创建了一个简单的切换来更新数据库切换使用户处于活动状态 is active 1 或非活动状态 is active 0 我遇到的问题是虽然对象从 1 更改为 0 或 0 更
如何在 Node.js 中等待

这是一个关于我认为 Node js 中的简单模式的问题这是我在 CoffeeScript 中的示例 db is open false db open gt db is open true wait gt wait until db is
如何使ggplot2图形与R中的黑白打印（复印友好）兼容？

有没有办法转换ggplot2绘制成黑白版本而不重写大部分代码以便黑白版本保持可读性例如要替换scale fill gradient with scale fill grey 或者自动进行适合复印的转换如网站http colorbre
使用带有代码分割的汇总时，有什么方法可以保留包的目录结构吗？

Context 给定这样的项目结构 src a module js b module js util js 两者都在哪里module js文件导入util js 使用以下配置 export default experimentalCodeS
自 1.4.0 版本以来，sphinx_rtd_theme 不再是硬依赖项

C Users Administrator Desktop item code serv documents api gt 制作 html 运行 Sphinx v1 6 2 加载腌制环境失败无法获取属性 WarningStream
Spring MVC 415 不支持的媒体类型

我正在使用 Spring 3 2 并尝试使用 ajax post 请求来提交 json 对象数组如果这是相关的我转义了所有特殊字符我收到的 HTTP 状态为 415 我的控制器是 RequestMapping value save p
类型特征的 _t 别名和 _v 变量模板的目的是什么？

有a lot of v and t后缀例如std is same v std invoke result t result of t以及数百万个其他此类功能 Why它们到底存在吗在任何情况下公开实施细节例如std result of
利用 SSE 和其他 CPU 扩展

在我的代码库中有几个地方对于大型数据集相同的操作会重复很多次在某些情况下处理这些需要花费相当长的时间我相信使用SSE来实现这些循环应该可以显着提高它们的性能特别是在对同一组数据执行许多操作的情况下因此一旦数据最初被读入缓存就
当键是复合键时，metaData.getPrimaryKeys() 返回单行

我在使用 SQLite 驱动程序的 JDBC 中遇到复合主键问题 The getPrimaryKeys 方法从DatabaseMetaData当我验证该键实际上是由两列组成的复合键时对象返回单行有人对如何检索主键的真实列表有任何建议替
文件路径在棒棒糖android中始终返回null

这是我从内部存储画廊获取图像时的代码在棒棒糖文件路径中返回始终为空 if requestCode PICK IMAGE if resultCode RESULT OK image successfully picked launchi
*y++ 和 ++*y 之间的区别？

我对这段代码将如何执行感到困惑假设我们有 int x 30 y z y x y 和 y 和有什么不一样该程序的输出是什么 include
重新索引存储库循环 - 不是 Maven

我的 Eclipse 继续崩溃运行一个循环显示重新索引存储库 myusername 我认为这是因为 github 但我没有检查 Maven 和 GitHub 下的 eclipse 首选项中可能导致问题的所有内容有人可以帮忙吗我的电脑一
MS Access 不支持连接表达式吗？

谁能向我解释我的查询有什么问题吗 SELECT T2 TIPOPRODUTO T2 PRODUTO T1 ESPESSURA AS LARGURA AS COMPRIMENTO AS ACABAM REVEST AS ESPECIF QUA
根据 R 中另一个数据帧中给出的条件，用 NA 替换数据帧中的多个值

使用 R 我想根据另一个数据框中包含的条件将数据框中的数值替换为 NA An example data frame with numeric values I want to change to NA based on values giv

根据 R 中另一个数据帧中给出的条件，用 NA 替换数据帧中的多个值

根据 R 中另一个数据帧中给出的条件，用 NA 替换数据帧中的多个值 的相关文章

随机推荐

热门标签

根据 R 中另一个数据帧中给出的条件，用 NA 替换数据帧中的多个值的相关文章