使用 Tidyverse Join 更新/替换 Dataframe 中的值

2024-01-07

使用查找表中的（正确）值更新/替换主数据集中的 NA 最有效的方法是什么？这是很常见的操作！类似的问题似乎没有整齐的解决方案。

限制条件： 1) 请假设有大量缺失值和比给出的示例更大的查找表。因此，按情况进行替换操作是不切实际的（没有case_when, if_else, etc.)

2）查找表没有主数据帧的所有值，只有替换值。

Tidyverse 解决方案答案更受青睐。类似的问题似乎没有整齐的解决方案。

library(tidyverse)

### Main Dataframe ###
df1 <- tibble(
  state_abbrev = state.abb[1:10],
  state_name = c(state.name[1:5], rep(NA, 3), state.name[9:10]),
  value = sample(500:1200, 10, replace=TRUE)
)


#> # A tibble: 10 x 3
#>    state_abbrev state_name value
#>    <chr>        <chr>      <int>
#>  1 AL           Alabama      551
#>  2 AK           Alaska       765
#>  3 AZ           Arizona      508
#>  4 AR           Arkansas     756
#>  5 CA           California   741
#>  6 CO           <NA>        1100
#>  7 CT           <NA>         719
#>  8 DE           <NA>         874
#>  9 FL           Florida      749
#> 10 GA           Georgia      580


### Lookup Dataframe ###
lookup_df <- tibble(
  state_abbrev = state.abb[6:8],
  state_name = state.name[6:8]
)

#> # A tibble: 3 x 2
#>   state_abbrev state_name 
#>   <chr>        <chr>      
#> 1 CO           Colorado   
#> 2 CT           Connecticut
#> 3 DE           Delaware

理想情况下，left_join 将为缺失值提供替换选项。唉...

left_join(df1, lookup_df)
#> Joining, by = c("state_abbrev", "state_name")
#> # A tibble: 10 x 3
#>    state_abbrev state_name value
#>    <chr>        <chr>      <int>
#>  1 AL           Alabama      551
#>  2 AK           Alaska       765
#>  3 AZ           Arizona      508
#>  4 AR           Arkansas     756
#>  5 CA           California   741
#>  6 CO           <NA>        1100
#>  7 CT           <NA>         719
#>  8 DE           <NA>         874
#>  9 FL           Florida      749
#> 10 GA           Georgia      580

```

创建于 2018-07-28代表包 http://reprex.tidyverse.org（v0.2.0）。

拾取 and 建议并转化为可行的解决方案

df1 %>% 
  left_join(lookup_df, by = "state_abbrev") %>% 
  mutate(state_name = coalesce(state_name.x, state_name.y)) %>% 
  select(-state_name.x, -state_name.y)

# A tibble: 10 x 3
   state_abbrev value state_name 
   <chr>        <int> <chr>      
 1 AL             671 Alabama    
 2 AK             501 Alaska     
 3 AZ            1030 Arizona    
 4 AR             694 Arkansas   
 5 CA             881 California 
 6 CO             821 Colorado   
 7 CT             742 Connecticut
 8 DE             665 Delaware   
 9 FL             948 Florida    
10 GA             790 Georgia

OP 表示更喜欢“tidyverse”解决方案。然而，更新连接已经可用data.table包裹：

library(data.table)
setDT(df1)[setDT(lookup_df), on = "state_abbrev", state_name := i.state_name]
df1

    state_abbrev  state_name value
 1:           AL     Alabama  1103
 2:           AK      Alaska  1036
 3:           AZ     Arizona   811
 4:           AR    Arkansas   604
 5:           CA  California   868
 6:           CO    Colorado  1129
 7:           CT Connecticut   819
 8:           DE    Delaware  1194
 9:           FL     Florida   888
10:           GA     Georgia   501

基准

library(bench)
bm <- press(
  na_share = c(0.1, 0.5, 0.9),
  n_row = length(state.abb) * 2 * c(1, 100, 10000),
  {
    n_na <- na_share * length(state.abb)
    set.seed(1)
    na_idx <- sample(length(state.abb), n_na)
    tmp <- data.table(state_abbrev = state.abb, state_name = state.name)
    lookup_df <-tmp[na_idx] 
    tmp[na_idx, state_name := NA]
    df0 <- as_tibble(tmp[sample(length(state.abb), n_row, TRUE)])
    mark(
      dplyr = {
        df1 <- copy(df0)
        df1 <- df1 %>% 
          left_join(lookup_df, by = "state_abbrev") %>% 
          mutate(state_name = coalesce(state_name.x, state_name.y)) %>% 
          select(-state_name.x, -state_name.y)
        df1
      },
      upd_join = {
        df1 <- copy(df0)
        setDT(df1)[setDT(lookup_df), on = "state_abbrev", state_name := i.state_name]
        df1
      }
    )
  }
)
ggplot2::autoplot(bm)

data.table的更新连接总是更快（注意日志时间尺度）。

As the 更新加入修改数据对象，每次基准测试运行都会使用一个新的副本。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dplyr

使用 Tidyverse Join 更新/替换 Dataframe 中的值的相关文章

如何在 R 中为传单中的数值变量设置不对称颜色渐变

我想让传单调色板以零为中心红白绿发散我已经尝试过中所说的这个帖子 https stackoverflow com questions 29262824 r center color palette on 0 当我尝试手动创建颜色时我得
将数据从 R 导出到 Excel

我试图将从 R 获得的一些结果导出到 Excel 中但未成功我尝试过以下代码 write table ALBERTA1 D ALBERTA1 txt sep t write csv ALBERTA1 ALBERTA1 csv your
如何按 data.table 中的十分位数组计算统计数据

我有一个 data table 想按组计算统计数据 R set seed 1 R DT data table a rnorm 100 b rnorm 100 这些组应该定义为 R quantile DT a probs seq 1 9 1
使用 R 进行项目组织 [重复]

这个问题在这里已经有答案了可能的重复统计分析和报告撰写的工作流程 https stackoverflow com questions 1429907 workflow for statistical analysis and repor
R：表格格式

我有一个包含以下列的 Excel 文件 Column1 Column2 Column3 ab bb 0 5 ab bc 0 1 ab cd 0 7 ab dd 0 8 ac bb 0 2 ac bg 0 8 ac ee 0 8 ac dd
为什么这些数字不相等？

下面的代码显然是错误的有什么问题 i lt 0 1 i lt i 0 05 i 1 0 15 if i 0 15 cat i equals 0 15 else cat i does not equal 0 15 i does not eq
r 中的 5 维图

我正在尝试在 R 中绘制 5 维图我目前正在使用rgl包以 4 个维度绘制数据使用 3 个变量作为 x y z 坐标另一个变量作为颜色我想知道是否可以使用这个包添加第五个变量例如空间中点的大小或形状这是我的数据和当前代码的示例
有没有一种简单的方法来判断存储在一个列表中的许多数据帧是否包含相同的列？

我有一个包含许多数据框的列表 df1 lt data frame A 1 5 B 2 6 C LETTERS 1 5 df2 lt data frame A 1 5 B 2 6 C LETTERS 1 5 df3 lt data frame
表单提交时出现 rvest 错误

我想从以下网页中抓取数据 https swgoh gg u zozo collection 180 emperor palpatine https swgoh gg u zozo collection 180 emperor palpati
16 位以上整数的计算

我有两个大整数两者都超过 16 位确切地说是 20 位而且我知道由于双精度浮点运算我在使用这些数字进行计算甚至将它们存储在变量中独立于编程语言时受到限制不过我想也许gmp图书馆应该处理它们但不幸的是它没有可以计算更大的整
具有 dplyr、tidyverse 和 broom 的相关矩阵 - P 值矩阵

全部我想使用以下方法从相关矩阵中获取 p 值dplyr 和或扫帚包并同时测试多个变量我知道其他方法但 dplyr 对我来说似乎更简单更直观此外 dplyr 需要关联每个变量以获得特定的 p 值这使得该过程更容易更快我检查
替换字符串/文本中“从第 n 次到最后一次”出现的单词

这个问题以前曾被问过但尚未得到令提问者满意的答案 https stackoverflow com questions 36368712 how to use stringrs replace all function to replace
如何将 ggrough 图表另存为 .png

说我正在使用R包裹ggrough https xvrdm github io ggrough https xvrdm github io ggrough 我有这个代码取自该网页 library ggplot2 library ggroug
如何从shiny中将数据下载到多张纸上？

我们如何将数据从 Shiny 下载到多个工作表并命名每个工作表例如下面 ginberg将mtcars数据保存在sheet1中我们可以将头部 mtcars 保存在sheet2中吗另外我们可以对这些工作表进行不同的命名吗例如sheet
检查单词是否存在于英语词典 r 中

我正在对多个进行一些文本分析resume生成一个wordcloud using wordcloud包装连同tm用于在 R 中预处理文档语料库的包我面临的问题是检查语料库中的单词是否具有某种含义即它属于英语词典如何一起挖掘处理多份
提取部分字符串值，创建新的列名称，并使数据框宽

我想提取字符串列的最后一部分始终用方括号括起来将它们作为新列的名称然后将数据从长调整为宽并用这些值填充新列例如如果我有这个数据框 whatihave lt data frame v1 c abc effort def effor
如何匹配R中列之间的多个对应值

我有一个结构如下的数据框 ID Value1 Value2 1 a d g f 12 14 15 9 2 b c e 5 18 20 3 h i j 6 7 25 所以我有一个 ID 和两个值对于值 1 有多个对应于值 2 的选项我想最
r 谷歌搜索结果计数检索[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案用关键字健康医院搜索谷歌会返回大约 1 150 000 000 个结果如何在 R 中以编程方式获得此计数我见过这个lin ht
ggplot2 可视化/显示中的地图错误？

正如您在下面看到的我使用 ggplots 制作的地图上存在一个奇怪的显示问题任何投影似乎都会发生同样的问题这是代码仅包maps and ggplot2需要 mapWorld lt borders world colour gray5
使用函数参数作为 R 中新数据框的名称

这很简单但我已经搜索并未能找到这个小问题的解决方案我想使用函数的参数作为新数据框的名称例如 assign dataset lt function dataname x lt c 1 2 3 y lt c 3 4 5 dataname

随机推荐

XSL - 评估条件表达式是否是“捷径”？

给定 XSL If 语句
slf4j 没有 toString()

当你做类似的事情时LOG debug Exported product 在 slf4j 中它最终会在参数上调用 toString 例如product 由于某些原因我无法在要用作参数的所有类上重写 toString 有些类来自第三方 ja
Angular $locationProvider 与 ASP.NET MVC 路由

我正在使用 ASP NET MVC 使用 RouteCollection 类处理路由但我的前端是用 Angular 编写的在某些地方我想使用 Angular 的 location 更改 url 并且我希望它支持 HTML5 所以我将这
QTimer::singleShot() 在给定对象的父类中查找指定的槽，而不是对象本身

我对 Qt 还很陌生我对现有的 Qt 应用程序做了一些简单的修改但还没有从头开始创建任何应用程序一般来说我对 C 的某些方面类继承等也没有太多经验我创建了一个新的基于 Qt4 的 Code Blocks 项目并对模板进行了一些
pandas DataFrame 到 html，使用内联样式而不是 CSS

我正在尝试将 pandas DataFrame 作为 HTML 作为电子邮件的一部分发送我试图使用类似的东西 import pandas as pd df pd DataFrame 1 1 2 3 2 4 5 6 def style ma
消除 DateTimeFormat 和 Joda 的 DateTimeFormatter 之间细微的空白处理差异

我们有一些现有的代码如下所示 DateFormat dateFormats new SimpleDateFormat EEE d MMM yyyy HH mm ss Z Locale ENGLISH new SimpleDateForma
当我在 .NET 5 中运行应用程序时，Serilog 不会创建日志 SQL 表

我有 appsettings json 设置来自动创建日志表 autoCreateSqlTable true 但是我检查了 SQL 但找不到该表我似乎无法找到导致它无法创建和记录信息的原因程序 cs public class Prog
仅使用字符串 format() 方法的 Python 格式日期

仅使用 python 格式化日期的快速方法是什么 format方法我知道有一种方法可以不使用strftime 我需要更优雅的方法我知道一个好方法虽然不为人所知但非常有用您可以这样做 from datetime import dat
Ada 中的字符串数组

我在 Ada95 中有一个程序我必须在其中创建一个字符串数组该数组可以包含可变长度的字符串例子我已经声明了一个数组其中所有索引都可以存储大小为 50 的字符串当我为上面的数组分配一个较小的字符串时我收到约束错误 Code p
从检查堆栈中获取完全限定的方法名称

我无法完成以下功能 def fullyQualifiedMethodNameInStack depth 1 The function should return
在 Xcode 中自动多次运行测试用例

在 Xcode 中有没有办法让我自动运行单个测试用例 n 次这样做的原因是我的一些 Beta 测试人员在我的应用程序中遇到了随机崩溃我在 TestFlight 中看到崩溃日志以及堆栈跟踪但无法重现崩溃崩溃很少发生但当发生时总是
JQuery Mobile：调整分组选择的宽度和高度

我在定位分组选择之前遇到了问题但幸运的是已修复现在我在调整分组选择的大小调整宽度高度时遇到问题如果有人可以帮助我我将不胜感激下面是我的代码这是我将其定位在屏幕上的代码即使我添加了宽度和高度它似乎也没有更新我还注意到宽度
如何在 Windows Phone 运行时获取 StorageFolder 中的所有文件？

我想获取一个文件夹及其子文件夹中的所有文件但像这样的平面查询 var allFiles await myFolder GetFilesAsync Windows Storage Search CommonFileQuery OrderBy
java.lang.IllegalStateException：ArrayAdapter 要求资源 ID 为 TextView [重复]

这个问题在这里已经有答案了我尝试过这个教程http windrealm org tutorials android android listview php http windrealm org tutorials android and
TypeScript：只有一个键的对象的类型（不允许联合类型作为键）[重复]

这个问题在这里已经有答案了我希望定义一个type可以只有一个键的对象这是一个尝试 type OneKey
防止 TrueType 字体的抗锯齿（或子像素渲染）

这就是 ttf 字体的渲染方式我使用 FontForge 创建了这种纯矢量 TrueType 字体我想在需要基于矢量的字形且不支持加载 ttf 嵌入位图的应用程序上使用此字体貌似没有这个问题在某些颜色方案上 Windows 执行的子
如何使用prometheus获取pod的CPU和内存使用百分比

我想使用 promql Prometheus 以以下格式显示 pod 详细信息此外我想使用 promql 以以下格式显示应用程序组件的 CPU 和内存利用率 promql 查询 sum container memory working
插值函数需要

我需要一个可以像原型 js 框架那样进行插值的 JavaScript 函数有人有不依赖原型的插值函数吗欢迎使用 Jquery 谢谢根据您的需求类似这样的事情可能会起作用 String prototype interpolate fu
加速位图灰度转换，OpenMP 是 C# 中的一个选项吗？

请帮助我使用 openmp 使此代码并行此代码在单击按钮时运行文本框为 128 using System using System Collections Generic using System ComponentModel usin
使用 Tidyverse Join 更新/替换 Dataframe 中的值

使用查找表中的正确值更新替换主数据集中的 NA 最有效的方法是什么这是很常见的操作类似的问题似乎没有整齐的解决方案限制条件 1 请假设有大量缺失值和比给出的示例更大的查找表因此按情况进行替换操作是不切实际的没有case w

使用 Tidyverse Join 更新/替换 Dataframe 中的值

基准

使用 Tidyverse Join 更新/替换 Dataframe 中的值 的相关文章

随机推荐

热门标签

使用 Tidyverse Join 更新/替换 Dataframe 中的值的相关文章