基于“附近”行值聚合

2024-01-11

我有一个非常混乱的数据框（网络抓取），不幸的是其中有许多双重甚至三重条目。大多数数据框如下所示：

> df1<-data.frame(var1=c("a","a","b","b","c","c","d","d"),var2=c("right.a",NA,"right.b",NA,"right.c",NA,"right.d",NA),var3=c("correct.a","correct.a","correct.b","correct.b","correct.c","correct.c","correct.d","correct.d"))
> df1
  var1    var2      var3
1    a right.a correct.a
2    a    <NA> correct.a
3    b right.b correct.b
4    b    <NA> correct.b
5    c right.c correct.c
6    c    <NA> correct.c
7    d right.d correct.d
8    d    <NA> correct.d

“var1”是我需要用来聚合的 ID 变量。我的目标是拥有一个如下所示的数据框：

  var1    var2      var3
1    a right.a correct.a
2    b right.b correct.b
3    c right.c correct.c
4    d right.d correct.d

然而，主要问题是，并不是整个数据框看起来像这样。事实上，我还有其他类似这样的部分：

> df2<-data.frame(var1=c("e","e","e","f","f","g","g","g"),var2=c(NA,NA,"right.e",NA,NA,NA,"right.g",NA),var3=c("correct.e","correct.e",NA,"correct.f",NA,"correct.g","correct.g",NA))
> df2
  var1    var2      var3
1    e    <NA> correct.e
2    e    <NA> correct.e
3    e right.e      <NA>
4    f    <NA> correct.f
5    f    <NA>      <NA>
6    g    <NA> correct.g
7    g right.g   wrong.g
8    g    <NA>      <NA>

以及其他变化。最后，每个 ID 都应该有一行包含正确且正确的 var2 和 var3。此时，我迷路了：我的 var1 是不独特。但是，我知道“属于”在一起的重复 ID 会分组在数据框中（如我的示例中所示）；例如第 4102 行和第 4103 行中可能还有另一个“a”。

我认为正确的方法是使用以 var1 作为 ID 的聚合，但另外告诉 R 这样做时聚合应该只检查 var1 的 +-2 行。有什么想法如何编码吗？

Thanks!

这是一个使用的方法data.table

library(data.table)

setDT(df1)[, .(var2[!is.na(var2)][1], var3[!is.na(var3)][1]), by=var1]
   var1      V1        V2
1:    a right.a correct.a
2:    b right.b correct.b
3:    c right.c correct.c
4:    d right.d correct.d

and

setDT(df2)[, .(var2[!is.na(var2)][1], var3[!is.na(var3)][1]), by=var1]
   var1      V1        V2
1:    e right.e correct.e
2:    f      NA correct.f
3:    g right.g correct.g

这个想法在var2[!is.na(var2)][1]例如，从 var2 中获取第一个非缺失值。如果所有值均缺失，则返回 NA。该操作由 var1 对两个变量执行。

如果你有两个以上的变量，你可以切换到lapply。例如以下。

df1[, lapply(.SD, function(i) i[!is.na(i)][1]), by=var1]
   var1    var2      var3
1:    a right.a correct.a
2:    b right.b correct.b
3:    c right.c correct.c
4:    d right.d correct.d

如果多个 var1 具有有效值，且由非缺失 var2 指示，则您可以通过连接达到预期结果。

评论中的数据，

df1<-data.frame(var1=c("a","a","b","b","c","c","d","d","a","a"),
                var2=c("right.a",NA,"right.b",NA,"right.c",NA,"right.d",NA,"right.a1",NA),
                var3=c("correct.a","correct.a","correct.b","correct.b","correct.c","correct.c","correct.d","correct.d","correct.a1","correct.a1"))

然后，根据这些数据，

setDT(df1)[df1[, .(var2=var2[!is.na(var2)]), by=var1], on=.(var1, var2)]
   var1     var2       var3
1:    a  right.a  correct.a
2:    a right.a1 correct.a1
3:    b  right.b  correct.b
4:    c  right.c  correct.c
5:    d  right.d  correct.d

在这里，var1 的所有非缺失 var2 观测值都被合并到原始数据集中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

DataFrame

Aggregate

na

基于“附近”行值聚合的相关文章

R 中的快速 QR 分解

我有大量矩阵需要对其执行 QR 分解并存储生成的 Q 矩阵进行归一化以便 R 矩阵在其对角线上具有正数除了使用之外还有其他方法吗qr 功能这是工作示例 system time Parameters for the matrix t
在 R 中绘制 Likert 变量的堆积条形图

假设我有一个如下所示的数据框 P Q1 Q2 1 1 4 1 2 2 3 4 3 1 1 4 其中的列告诉我哪个人相应地回答了问题 q1 q2 中的哪一个这些问题需要按照 4 分李克特量表进行回答例如批准表示 1 稍微批准表示 2
将数据框中重叠的范围合并到唯一的组中

我有一个 n 行 3 的数据框 df lt data frame start c 178 400 983 1932 33653 end c 5025 5025 5535 6918 38197 group c 1 1 2 2 3 df sta
将阴影区域添加到五分位数之间的直方图中

All 我有一个包含 2 个直方图的图表其中我还绘制了代表第 20 40 60 和 80 个百分位数的线条下面的代码使用虚拟数据重现了类似的图表 data lt rbind data frame x rnorm 1000 0 1 g o
更改闪亮 R 中的默认浏览器

我在 RStudio 中使用 01 hello 虽然在 IE 中默认打开程序时它不会显示直方图但即使在 Chrome 中滑块也不起作用我无法滑动条形图并看到直方图中的变化如何更改 R 中的默认浏览器以便闪亮启动 Chrome 而不
在 r 中的 group_by 之后建模后取消列表列的嵌套

我想对所有组进行线性回归group by 将模型系数保存在列表列中然后使用 unnest 扩展列表列这里我用的是mtcars以数据集为例注我想用do here becausebroom tidy 不适用于所有型号 mtcars gt
如何仅删除单括号并保留配对的括号

你好我亲爱的老师 R 用户朋友们我最近开始认真学习正则表达式最近我遇到了一种情况我们只想保留配对括号并省略未配对的这是我的样本数据 structure list t1 c Book Pg 1 Website Online Jou
使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

我有一个 Pandas 数据框它有两列一列进程参数列包含字符串另一列值列包含相应的浮点值我需要过滤出部分匹配列过程参数中的一组键的子数据帧并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce
如何从 R keras 中的类似生成器的数据中评估（）和预测（）

我有以下代码数据集可以下载here https www dropbox com s qjt5o31oyqj10m8 data tar gz dl 0 or here https www kaggle com c dogs vs cats
在 Rcpp 中使用其他包中的 C 函数

我试图从 C 函数中的 cubature 包调用 C 例程来执行多维积分我试图重现的基本 R 示例是 library cubature integrand lt function x sin x adaptIntegrate integr
所有 x 轴标签未以 45 度显示

I m having the code as like below But I m not getting all the x axis labels and it is not displaying in 45 degree when I
纵向比较 R 中的值...并进行扭转

我有许多人在多达四个时间段进行的测试结果这是一个示例 dat lt structure list Participant ID c A A A A B B B B C C C C phase structure c 1L 2L 3L 4L
R 中用于调用 sed、rsync、ssh 等的 system() 的替代方案：函数是否存在，我应该编写自己的函数，还是我错过了重点？

最近我发现了base files命令与其他命令一起使用例如getwd write lines file show dir等等似乎有许多 bash 函数的 R 等价物我还在 R 中编写了一些函数来简化对ssh and rsync通过
R“错误：“}”中出现意外的“}”[重复]

这个问题在这里已经有答案了我有一个字符串变量对于缺少数据的情况它具有空值我想将空值重新编码为缺失而不是说空值我正在尝试编写一个循环来删除这些空值条目但我不断收到错误错误中出现意外的 for row in dat
计算运行总计时出错（之前期间的累计）

我有一张桌子我们称之为My Table有一个Created日期时间列在 SQL Server 中我试图提取一个报告该报告显示历史上有多少行My Table按月在特定时间现在我知道我可以显示有多少added每个月 SELECT YE
R：使用 tidyverse 将 NA 替换为 df 中的其他变量

我想使用 tidyverse 替换 df 中的 NA 值我想要的值应该从其他列中计算出来 input ID X1 X2 X3 A 0 96 NA 0 97 B 1 00 NA 1 01 C 0 98 0 03 NA A 1 00 NA 1
使用 template.docx 从 Shiny App 编织 Word 文档

我正在尝试使用 template docx 文件从闪亮的应用程序编写一个 Word 文档我收到以下错误消息 pandoc exe template docx openBinaryFile 不存在没有这样的文件或目录以下 3 个文件当前
Shiny：动态数据框构建； renderUI、观察、reactiveValues

我认为如何使用 Shiny 的 renderUI 功能动态子集数据的问题经常出现但我很难理解何时使用 renderUI 带有 uiOutput 而不是其他功能包括观察反应反应值甚至条件面板我想构建一个完全交互式的数据框架其中每个
如何将plot中的单变量列表图表转换为ggplot2格式？

我正在搜索但仍然找不到一个非常简单的问题的答案我们如何使用 R 中的 ggplot2 生成一个变量的简单线图我正在分析时间序列数据并且想要对图表进行更复杂的操作我认为如果我使用 ggplot2 代替会更好plot It works
在 Shiny 中的用户会话之间共享反应数据集

我有一个相当大的反应数据集该数据集是通过轮询文件然后按预定义的时间间隔读取该文件而派生的数据更新频繁需要不断重新加载诚然重新加载可以增量完成并附加到 R 中的现有对象但事实并非如此然而目前尽管会话中的数据相同但此操作是针对

随机推荐

NSPopupButton 中带有绑定的分隔符项

的内容NSPopupButton绑定到一个NSArray字符串我们如何通过绑定插入分隔符项目 The 字符串就像在过去经典时代一样不起作用即字面上显示为菜单项是否有任何带有标准 Cocoa 类和绑定的开箱即用的解决方案这应该
CATextLayer旋转？

这应该确实有效但不是 CATextLayer textLayer CATextLayer layer textLayer string text textLayer setValue NSNumber numberWithDouble M
如何在 Pygame 中插入滑块？

我目前正在 Python 上进行物理模拟使用 Pygame 模拟室内的气体云我的问题是我无法在代码中插入工作滑块来更改参数的值我有一个运行模拟的运行时循环当我想在其中插入工作滑块时模拟就会停止我无法让模拟和滑块同时工作下面
为什么正则语言的补语仍然是正则语言？

根据我的教科书只要L1是正则语言 L1 A L1的补集就是正则语言 A 不是还包括上下文无关语言上下文相关语言和递归可枚举语言吗 A L1 也将包括所有这些不是吗那怎么可能有规律呢在有限状态机的表示下我理解为什么补码仍然是常规语
向静态 Azure 网站添加身份验证

我们有一个 Azure 网站托管一个静态站点仅一些 HTML CSS Javascript 然后通过 AJAX 调用与我们的 Azure 移动服务进行通信我们想向该站点添加一些非常简单的身份验证只需静态用户名密码就足够了请推荐最
如何在 scipy.optimize 中使用 fmin_cg 获得正确的尺寸

我一直在尝试使用 fmin cg 来最小化逻辑回归的成本函数 xopt fmin cg costFn fprime grad x0 initial theta args X y m maxiter 400 disp True full ou
Java foreach 对原语的迭代顺序是否精确定义？

示例代码 int a new int 0 1 2 3 int result 0 for int i a result i 循环是否保证迭代a 0 a 1 a 2 a 3 以该顺序我坚信答案是肯定的但是这一页 http java sun
JLabel 仅显示 initComponents() 是否被删除

MainFrame java JFrame public MainFrame initComponents Letters pl new Letters this this setContentPane pl this setTitle P
无法使用反应钩子读取未定义的属性“映射”

我试图使用 fortnite api 来显示当前的物品商店但我收到了如标题所示的错误当我控制台日志结果时它显示一个数组但我无法映射它为什么 import React useState useEffect from react im
在互操作 C# 期间延迟 Excel 计算

我必须从 C 程序将数百个单元格输入到 Excel 工作表中每次我设置一个单元格或一个范围时 Excel都会缓慢响应大概是在我添加的每个输入之间更新各种输出有没有办法禁用我的 C 程序的计算并在完成设置单元格并准备好读取输出后重新启
LINQ 有条件添加联接

我有一个 LINQ 查询我试图从 2 个表返回数据但我加入的表是有条件的这就是我想做的 if teamType A var query from foo in context People join foo2 in context P
在运行时请求管理员权限

如何在运行时请求管理员权限以便提示用户允许或禁止如果您希望它响应按钮例如像任务管理器中的显示所有用户的进程您必须使用以下方法重新启动您的应用程序 ShellExecute 0 L runas exepath 0 0 SW SHO
如何使用 Visual Studio 为 .net Framework 4.7.2 项目创建 SDK 样式项目？

我运行的是最新版本的VS2019 16 6 1 然而 Windows 类库的新项目向导仍然创建旧样式的项目我想用这个方法研究这个问题 https stackoverflow com questions 62251125 target v4
如何使我的本地主机可通过互联网访问

我在本地计算机上的 JBoss 上托管了一个应用程序我也可以通过 localhost 或通过我的 IP 访问现在我希望其他用户可以通过我的 IP 通过互联网访问同一个应用程序您能让我知道如何配置 JBoss 来处理这些请求吗 http
无法从 WinApi 箱调用 CryptDecrypt，因为它找不到模块

In the 文档 https docs rs winapi x86 64 pc windows msvc winapi um wincrypt fn CryptDecrypt html它说该函数位于winapi um wincrypt C
如何将 tr 附加到表格顶部

我如何将新的 tr 附加到表格顶部而不是其他 tr 下 Example table width 100 tr td something td td else here td tr tr td something2 td td else he
scala中基于相邻元素之间差异的拆分列表

我们如何根据相邻元素之间的差异在 scala 中拆分列表例如给定 List 1 3 6 10 12 14 和差值 3 该函数将返回 List List 1 3 List 6 List 10 12 14 我们可以使用foldLeft 来做
如何为 Android 中单击的图像按钮制作边框？

我正在使用 Imagebuttons 在我的 android 项目中显示一些图标
值不能为 null 或为空。\r\n参数名称: name

当我进入 cshtml 页面时出现此错误 System Web Mvc dll 中发生 System ArgumentException 类型的异常但未在用户代码中处理在我的 cshtml 代码中 div class form grou
基于“附近”行值聚合

我有一个非常混乱的数据框网络抓取不幸的是其中有许多双重甚至三重条目大多数数据框如下所示 gt df1 lt data frame var1 c a a b b c c d d var2 c right a NA right b NA

基于“附近”行值聚合

基于“附近”行值聚合 的相关文章

随机推荐

热门标签

基于“附近”行值聚合的相关文章