从特定列中选择值并跳过 R 中的 NA 值

2023-11-24

我正在处理癌症登记数据。在以下数据示例 (ex_data) 中，变量id and 诊断_yr代表癌症诊断的 ID 和年份。列x_2005 to x_2010 and y_2005 to y_2010分别代表每年（2005年至2010年）的x和y状态。在我的实际工作数据中，我有很多年（2005-2020年）的专栏。我想从最早可用年份、最近可用年份和诊断年份（即诊断年份）中提取 x 和 y 值。x_最早、y_最新、x_at_diagnosis、y_at_diagnosis“wanted”中的变量）通过排除 NA 。例如，对于 id 1，我想通过跳过 NA 从最早的年份中提取 x 值，并从最近的年份中提取 y 值。对于诊断年份的 x 和 y 值，如果诊断年份存在 NA，我想跳过 NA 并提取前一年的可用数据。如何在 R 中实现获取想要的变量？

library(tidyverse)

#example data
ex_data <- tribble(
~id,~diagnosis_yr,~x_2005,~x_2006,~x_2007,~x_2008,~x_2009,~x_2010,~y_2005,~y_2006,~y_2007,~y_2008,~y_2009,~y_2010,
1,  2007,   NA, NA, 1,  2,  2,  3,  "a",    "b",    "c",    "d",    "e",    NA, 
2,  2008,   1,  3,  1,  NA, 1,  2,   NA,    "b",    "b",    "e",    "d", "d",
3,  2010,   NA, 2,  2,  2,  3,  NA, "a",    "b",    "c",     NA,     NA,    NA,
4,  2009, 1,    3,  1,  NA, 1,  2,   NA,     NA,     NA,     NA,     NA,    NA,
5,  2005, NA,   1,  1,  2,  2,  3,  "a",    "b",    "c",    "d",    "e",    "e"
)

#wanted variables
wanted <- tribble(
  ~id,~diagnosis_yr,~x_earliest,~y_latest,~x_at_diagnosis,~y_at_diagnosis,
  1,    2007,   1,  "e",    1,  "c",
  2,    2008,   1,  "d",    1,  "e",
  3,    2010,   2,  "c",    3,  "c",
  4,  2009, 1,   NA,  1,  NA,
  5,  2005, 1,  "e", NA,  "a"
)

我不完全确定这是否正确：

library(dplyr)
library(tidyr)

ex_data %>% 
  pivot_longer(-c(id, diagnosis_yr), 
               names_to = c(".value", "year"),
               names_pattern = "(.*)_(\\d+)") %>% 
  group_by(id) %>% 
  mutate(x_earliest     = first(na.omit(x)),
         x_at_diagnosis = last(na.omit(x[diagnosis_yr >= year])),
         y_latest       = last(na.omit(y)),
         y_at_diagnosis = last(na.omit(y[diagnosis_yr >= year]))) %>% 
  select(id, diagnosis_yr, x_earliest, y_latest, x_at_diagnosis, y_at_diagnosis) %>% 
  distinct() %>% 
  ungroup()

这返回

# A tibble: 3 x 6
     id diagnosis_yr x_earliest y_latest x_at_diagnosis y_at_diagnosis
  <dbl>        <dbl>      <dbl> <chr>             <dbl> <chr>         
1     1         2007          1 e                     1 c             
2     2         2008          1 d                     1 e             
3     3         2010          2 c                     3 c

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

从特定列中选择值并跳过 R 中的 NA 值的相关文章

我无法下载 R 中的 reshape2 包 [关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我在尝试安装 R 包时收到此响应 gt installed packages reshape2 Package LibPath V
在 R 中向散点图添加线条

如何向图表添加线条我做了以下 dat lt data frame xvar 1 20 rnorm 20 sd 10 yvar 1 20 rnorm 20 sd 10 zvar 1 20 rnorm 20 sd 10 plot dat 1
如何计算R中移动窗口内的平均斜率

我的数据集包含2个变量y 和 t 05s y 每 05 秒测量一次我正在尝试计算移动中的平均坡度20秒窗口即计算第一个 20 秒斜率值后窗口向前移动一个时间单位 05 秒并计算下一个 20 秒窗口在以下位置生成连续 20 秒斜率值
使用 pracma::findpeaks 识别持续峰值

我的语法有问题peakpat内的选项findpeaks内的函数pramcaR 包 v 2 1 1 我使用的是 R 3 4 3 x64 Windows 我希望该函数能够识别可能有两个重复值的峰值并且我相信该选项peakpat这就是我能做到的
pyomo + 网状错误 6 句柄无效

我正在尝试运行pyomo优化我收到错误消息 Error 6 The handle is invalid 不知道如何解释它环顾四周似乎与特权有关但我不太明白在下面找到完整的错误跟踪以及重现它的玩具示例完整的错误跟踪 py run f
从命令行运行 R 代码 (Windows)

我在名为 analysis r 的文件中有一些 R 代码我希望能够从命令行 CMD 运行该文件中的代码而无需通过 R 终端并且我还希望能够传递参数并在我的代码中使用这些参数例如就像下面的伪代码 C gt execute r scri
R独特的列或行与NA无可比拟

有谁知道如果incomparables的论证unique or duplicated 曾经被实施过incomparables FALSE 也许我不明白它应该如何工作无论如何我正在寻找一个巧妙的解决方案以仅保留与另一列相同的唯一列或行
API 请求和curl::curl_fetch_memory(url, handle = handle) 中的错误：SSL 证书问题：证书已过期

几天前我运行了代码几个月没有任何问题 GET url myurl query 今天我遇到一个错误 Error in curl curl fetch memory url handle handle SSL certificate pro
使用 R 选择第一个非 NA 值

df lt data frame ID c 1 1 1 2 3 3 3 test c NA 5 5 6 4 NA 7 3 NA 10 9 我想创建一个名为 value 的变量它是每个单独 ID 测试的第一个非 NA 值对于只有NA的个体
更改闪亮 R 中的默认浏览器

我在 RStudio 中使用 01 hello 虽然在 IE 中默认打开程序时它不会显示直方图但即使在 Chrome 中滑块也不起作用我无法滑动条形图并看到直方图中的变化如何更改 R 中的默认浏览器以便闪亮启动 Chrome 而不
文本挖掘 pdf 文件/词频问题

我正在尝试挖掘一篇具有丰富 pdf 编码和图表的文章的 pdf 我注意到当我挖掘一些 pdf 文档时我得到的高频词是 phi taeoe toe sigma gamma 等它与某些 pdf 文档配合良好但与其他文档配合使用时却得到这
如何获得所有大于x且有位置的数字？

V lt c 1 3 2 4 2 3 1 X lt 3 pos lt V V X pos is 3 3 我需要的是所有 3 个的位置 I need 2 and 6 哪些职位是3 in V Use which pos lt which V 3
在 Rcpp 中使用其他包中的 C 函数

我试图从 C 函数中的 cubature 包调用 C 例程来执行多维积分我试图重现的基本 R 示例是 library cubature integrand lt function x sin x adaptIntegrate integr
如何在 R 或 Python 中制作旭日图？

到目前为止我一直无法找到一个可以创建旭日图的 R 库约翰斯塔斯科 http www cc gatech edu gvu ii sunburst 有人知道如何在 R 或 Python 中实现这一点吗在极坐标投影中使用 matplotli
如何在 R 中匹配多个 ggplot2 图中的调色板？

自从被问到这个问题以来已经有一段时间了但我知道一个事实我很快就会提取新数据我想弄清楚如何用这种技术来绘制它看起来评论和答案中的人知道如何做到这一点但我无法完全弄清楚所给我的内容还有人想尝试一下吗我正在尝试使用具有多个级别的因子
如何从 R 中的 txt 文件读取矩阵？

我有一个带有矩阵的txt文件 Matrix txt 重要数字之间没有空格 0100 1001 1100 我想在 R 中将其作为矩阵读取我该怎么做我尝试使用 as matrix read table Matrix txt sep 但失败
将不均匀的层次列表转换为数据框

我认为还没有有人问过这个问题但是有没有一种方法可以将具有多个级别和不均匀结构的列表的信息组合成长格式的数据帧具体来说 library XML library plyr xml inning lt http gd2 mlb com c
SPSS 中的标准化残差与 R rstandard(lm()) 不匹配

在寻找 R 相关解决方案时我发现 R 和 SPSS 版本 24 在计算简单线性模型中的标准化残差方面存在一些不一致看来SPSS所谓的标准化残差匹配 R学生化残差我完全不认为某处存在软件错误但显然这两个程序之间存在差异看看这个例子
无法更改 RStudio 中的 R 版本

我的 RStudio V 0 99 491 无法更改 R 版本我以平常的方式行事Global Options gt R Version 然后它挂起并且不再工作或反应 R 运行良好的初始版本是R 3 1 0 我以前从未遇到过这样的问题也许
如何将plot中的单变量列表图表转换为ggplot2格式？

我正在搜索但仍然找不到一个非常简单的问题的答案我们如何使用 R 中的 ggplot2 生成一个变量的简单线图我正在分析时间序列数据并且想要对图表进行更复杂的操作我认为如果我使用 ggplot2 代替会更好plot It works

随机推荐

使用 php 变量创建动态 mysql 查询

我有一个 html 表可以加载 mySQL 数据库表中的所有内容我有与该 mySQL 表的列相关的下拉菜单当用户选择其中一个下拉菜单时它会使用 AJAX 来查询数据库我需要弄清楚如何动态构建查询因为有时下拉列表将为空即他们不想
mysql 查询执行时间 - 我能以毫秒为单位得到这个吗？ [复制]

这个问题在这里已经有答案了可能的重复如何在mysql中获取以毫秒或微秒为单位的加载时间我正在比较几种不同的方法来直接在控制台获取 mysql 中的一些数据使用 SQL NO CACHE 选项来确保 mysql 每次都保持运行完整查询
MVC Razor 使用 FormCollection 从选择中获取选项值

我的视图有一个包含 ViewModel 中的元素选项的选择 using Html BeginForm NewUser Admin
使用异步方法保持对象可链接

假设我有课Test大约有 10 20 个方法所有这些方法都是可链接的在另一种方法中我有一些异步工作要做 let test new Test console log test something Test console log tes
如何将 NSTreeController 的子级绑定到 Core Data 有序对多关系？

Apple 在 Lion 的 Core Data 中引入了有序对多关系我创建了一个名为 TreeNode 的实体它具有 1 1 对象关系 1 1 父关系和有序的多对关系子关系然后我有一个NSTreeController将子键路径设置为
如何使用 EmberData 返回由 EmberJS 中的嵌套模型组成的 Promise？

环境 Ember 1 4 0 Ember Data 1 0 0 beta 7 canary b45e23ba Model 我简化了我的用例使问题更容易理解和回答假设我们有 3 个模型 Country Region and Area Co
如何在 Visual Studio 2015 中设置代理

我正在使用 Visual Studio 2015 进行 Xamarin 应用程序开发并且我正在公司代理后面工作我需要将代理 http 代理设置为 Visual studio 2015 那么如何获得这样的窗口来设置代理 Find dev
如何禁用 PyTorch-Lightning 记录器的日志记录？

PyTorch Lightning 中的记录器打印有关要训练或评估的模型以及训练过程中的进度的信息但是就我而言我想隐藏记录器中的所有消息以免淹没输出Jupyter Notebook 我在官方文档页面上查看了 Trainer 类的
OS X 终端 UTF-8 问题

好吧在使用 Linux 15 年后我终于给自己买了一台 MacBook Air 在我得到它之前我最关心的是 UTF 8 支持因为无论我从 Windows 还是 mac 客户端发送给我的文件总是存在编码问题而在 ubuntu 上
AlarmManager 在 S5 Neo 的睡眠模式下无法按预期工作

我在服务中使用 AlarmManager 每分钟触发一次 PendingIntent pendingIntent PendingIntent getService getApplicationContext 0 getUpdateServi
修复指定 PU 时出现的“无法解析持久性单元...”错误

截至今天 2010 11 12 我正在运行 Glassfish 3 1 SNAPSHOT 我正在使用嵌入式 EJBContainer 在类路径上如 EJBContainer 所报告的我有一个 META INF persistence x
Eclipse：在导出为可运行 jar 时包含源代码

我了解如何在 eclipse 中创建可运行的 jar 文件时包含其他所需的库或外部资源但我没有看到也包含 src java 文件的选项我怎样才能做到这一点 In the Export gt Jar File对话框中您可以选择包含源文件和
Java文件上传到MySQL [重复]

这个问题在这里已经有答案了我有这个问题java io File从选择一个JFileChooser上传上述内容java io File具有此表结构的 MySQL 表的对象 COL NAME COL TYPE ATTRIBUTES EXTRA
数组中成员的默认值是多少？

我像这样实例化一个数组 int array new int 4 这四个成员的默认值是多少是null 0还是不存在它是 0 它不能为 null 因为 null 不是有效的int value 来自 C 5 规范第 7 6 10 4 节新数
如何将拖放事件侦听器附加到 React 组件

我正在构建一个允许将本地文件拖放到 div 上的组件然后输出有关已删除文件的信息我的问题是我不知道如何正确附加事件监听器drop and dragover创建我的组件时我的应用程序组件是我所有逻辑所在的位置放置和拖动的处理程序我创
原则 2 - 使用数据库中的视图生成实体

是否可以使用 Doctrine 2 从数据库生成视图我解释我的数据库包含一些我想要使用的视图但我不知道如何生成这些视图就我而言我有两个表和一个视图该视图在每个表中选择几列我只想将此视图放在项目的文件夹 Entity 中 Dat
使用 Google Compute Engine 上的应用程序默认凭据访问 Sheets API

ADC 应用程序默认凭据工作流程是否仅支持 Google Cloud API 例如支持 Google Cloud Storage API 但不支持 Google Sheet API 我指的是google auth 的默认方法不必在代码
绑定参数在 SQLite3 中如何工作（用最少的示例）？

有人建议在 SQLite 中使用参数绑定来加速重复查询但是如果我有多个绑定参数它就不起作用我没有看到我的错误所有 SQLite 函数都返回 SQLITE OK 下面我写了一个最小的例子它创建一个表创建三个条目然后查询两次
如何调用 Oracle PL/SQL 对象超级方法

我想调用一个重写的 PL SQL 方法这是一个例子 super class create or replace type test as object n number member procedure proc SELF in out
从特定列中选择值并跳过 R 中的 NA 值

我正在处理癌症登记数据在以下数据示例 ex data 中变量id and 诊断 yr代表癌症诊断的 ID 和年份列x 2005 to x 2010 and y 2005 to y 2010分别代表每年 2005年至2010年的x和y

从特定列中选择值并跳过 R 中的 NA 值

从特定列中选择值并跳过 R 中的 NA 值 的相关文章

随机推荐

热门标签

从特定列中选择值并跳过 R 中的 NA 值的相关文章