如何识别 R 中行的镜像重复项

2024-05-03

在下面的SO帖子中如何识别 R 中行的部分重复项 https://stackoverflow.com/questions/54661129/how-to-identify-partial-duplicates-of-rows-in-r#54661129，我问如何删除部分重复的行。这是我问的：

我想识别数据框中行的“部分”匹配。具体来说，如果数据框中的特定行基于列子集之间的匹配在数据框中的其他位置具有重复行，我想创建一个值为 1 的新列。增加的复杂性是数据框中的一列是数字，如果绝对值匹配，我想匹配。

问题是，我需要确保当一行被识别为部分重复时，只有当属于匹配的列之一是镜像相反值而不仅仅是绝对值的匹配时，才会如此。为了让事情更清楚，这是上一篇文章中的示例数据：

name<-c("Richard Nixon", "Bill Clinton", "George Bush", "Richard Nixon")
state<-c("California", "Indiana", "Florida", "California")
num<-c("-258", "123", "42", "258")
date<-c("day 2", "day 15", "day 3","day 45")
(df<-as.data.frame(cbind(name,state,num, date)))
           name      state  num   date
1 Richard Nixon California -258  day 2
2  Bill Clinton    Indiana  123 day 15
3   George Bush    Florida   42  day 3
4 Richard Nixon California  258 day 45

这是我上一篇文章的解决方案：

df$absnum = abs(as.numeric(as.character(df$num)))
df$newcol = duplicated(df[,c('name','state', 'absnum')]) | 
  duplicated(df[,c('name','state', 'absnum')], fromLast = T)

#            name      state  num   date absnum newcol
# 1 Richard Nixon California -258  day 2    258   TRUE
# 2  Bill Clinton    Indiana  123 day 15    123  FALSE
# 3   George Bush    Florida   42  day 3     42  FALSE
# 4 Richard Nixon California  258 day 45    258   TRUE

请注意，第 1 行和第 4 行已标记TRUE under newcol，这很好。这是新的示例数据，但增加了复杂性问题：

name<-c("Richard Nixon", "Bill Clinton", "George Bush", "Richard Nixon", "Bill 
Clinton")
state<-c("California", "Indiana", "Florida", "California", "Indiana")
num<-c("-258", "123", "42", "258", "123")
date<-c("day 2", "day 15", "day 3","day 45", "day 100")
(df<-as.data.frame(cbind(name,state,num, date)))

  name           state      num   date
1 Richard Nixon  California -258  day 2
2 Bill Clinton   Indiana    123   day 15
3 George Bush    Florida    42    day 3
4 Richard Nixon  California 258   day 45
5 Bill Clinton   Indiana    123   day 100

请注意，观察值 2 和 5 是部分重复的，但与 1 和 4 的方式不同。我需要申请TRUE仅适用于绝对值匹配但不匹配原始值的那些观测值。所以我希望结果返回以下内容：

  name           state      num   date    newcol
1 Richard Nixon  California -258  day 2   TRUE
2 Bill Clinton   Indiana    123   day 15  FALSE
3 George Bush    Florida    42    day 3   FALSE
4 Richard Nixon  California 258   day 45  TRUE
5 Bill Clinton   Indiana    123   day 100 FALSE

上一篇 SO 帖子提供的解决方案将适用TRUE到第 2 行和第 5 行，而我只想将其应用于第 1 行和第 4 行。

在基础 R 中，您可以使用相同的duplicated测试“部分”重复项的链接问题，但随后排除相同的值

df$numnum = as.numeric(as.character(df$num))
df$absnum = abs(df$numnum)
df$newcol = (duplicated(df[,c('name','state', 'absnum')]) | 
  duplicated(df[,c('name','state', 'absnum')], fromLast = T)) &
  !(duplicated(df$numnum) | duplicated(df$numnum, fromLast = T))
#            name      state  num    date numnum absnum newcol
# 1 Richard Nixon California -258   day 2   -258    258   TRUE
# 2  Bill Clinton    Indiana  123  day 15    123    123  FALSE
# 3   George Bush    Florida   42   day 3     42     42  FALSE
# 4 Richard Nixon California  258  day 45    258    258   TRUE
# 5  Bill Clinton    Indiana  123 day 100    123    123  FALSE

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

如何识别 R 中行的镜像重复项的相关文章

在shiny中过滤传单地图数据

我在用传单地图设置这个闪亮的东西时遇到了麻烦我的原帖 https stackoverflow com questions 50111566 applying leaflet map bounds to filter data within
如何使用 usmap 标记数字而不是名称？

我知道 usmap 有一个选项label in plot usmap 我想标记一些数字而不是状态名称我想 usmap 中应该有与州质心坐标相关的数据但我不知道如何找到它如果我能得到坐标然后我可以用它来标记数字geom text 这
绘制点之间的所有线

我有以下 R 代码 x lt c 0 01848598 0 08052353 0 06741172 0 11652034 y lt c 0 4177541 0 4042247 0 3964025 0 4074685 d lt data fr
Dendextend：关于如何根据定义的组为树状图的标签着色

我正在尝试使用一个名为 dendextend 的很棒的 R 包来绘制树状图并根据一组先前定义的组为其分支和标签着色我已阅读您在 Stack Overflow 中的答案以及 dendextend vignette 的常见问题解答但我仍然不
在 R 中绘制 Likert 变量的堆积条形图

假设我有一个如下所示的数据框 P Q1 Q2 1 1 4 1 2 2 3 4 3 1 1 4 其中的列告诉我哪个人相应地回答了问题 q1 q2 中的哪一个这些问题需要按照 4 分李克特量表进行回答例如批准表示 1 稍微批准表示 2
在 R 中创建虚拟变量，排除某些情况为 NA

我的数据看起来像这样 V1 V2 A 0 B 1 C 2 D 3 E 4 F 5 G 9 我想创建一个虚拟变量R where 0 1 1 2 3 4 and NA 0 5 9 应该很简单有人可以帮忙吗我们可以转换V2 into a fa
r 中训练和测试数据的最小最大缩放/归一化

我正在创建一个函数它将训练集和测试集作为其参数最小最大缩放标准化并返回训练集并使用这些same最小值和最小最大范围的值标准化并返回测试集到目前为止这是我想出的功能 min max scaling lt function tr
ggplot2 geom_密度和geom_histogram在一个图中

如何制作一个所有条形加起来为 1 的直方图并在适合的上方添加一个密度层 set seed 1234 df lt data frame sex factor rep c F M each 200 weight round c rnorm 2
基于时间窗口的不规则时间序列的优化滚动函数

有没有办法使用 rollapply 来自zoo包或类似的东西优化功能 rollmean rollmedian等使用基于时间的窗口计算滚动函数而不是基于大量观察的函数我想要的很简单对于不规则时间序列中的每个元素我想计算一个具有 N
将阴影区域添加到五分位数之间的直方图中

All 我有一个包含 2 个直方图的图表其中我还绘制了代表第 20 40 60 和 80 个百分位数的线条下面的代码使用虚拟数据重现了类似的图表 data lt rbind data frame x rnorm 1000 0 1 g o
在 r 中的 group_by 之后建模后取消列表列的嵌套

我想对所有组进行线性回归group by 将模型系数保存在列表列中然后使用 unnest 扩展列表列这里我用的是mtcars以数据集为例注我想用do here becausebroom tidy 不适用于所有型号 mtcars gt
如何仅删除单括号并保留配对的括号

你好我亲爱的老师 R 用户朋友们我最近开始认真学习正则表达式最近我遇到了一种情况我们只想保留配对括号并省略未配对的这是我的样本数据 structure list t1 c Book Pg 1 Website Online Jou
如何从 R keras 中的类似生成器的数据中评估（）和预测（）

我有以下代码数据集可以下载here https www dropbox com s qjt5o31oyqj10m8 data tar gz dl 0 or here https www kaggle com c dogs vs cats
使用 ggmap 截断密度多边形

我在使用 R ggmap 绘制密度图时遇到问题我的数据如下所示 gt head W date lat lon dist 1 2010 01 01 31 942 86 659 292 415 2 2010 01 10 32 970 84 1
纵向比较 R 中的值...并进行扭转

我有许多人在多达四个时间段进行的测试结果这是一个示例 dat lt structure list Participant ID c A A A A B B B B C C C C phase structure c 1L 2L 3L 4L
将不均匀的层次列表转换为数据框

我认为还没有有人问过这个问题但是有没有一种方法可以将具有多个级别和不均匀结构的列表的信息组合成长格式的数据帧具体来说 library XML library plyr xml inning lt http gd2 mlb com c
applyStrategy 错误

我是R新手最近运行后遇到以下错误applyStrategy函数来自quantstrat包裹 Error in eval expr envir enclos object signal not found Error in colnames
R：使用 tidyverse 将 NA 替换为 df 中的其他变量

我想使用 tidyverse 替换 df 中的 NA 值我想要的值应该从其他列中计算出来 input ID X1 X2 X3 A 0 96 NA 0 97 B 1 00 NA 1 01 C 0 98 0 03 NA A 1 00 NA 1
闭包作为数据合并习惯的解决方案

我正在尝试解决闭包问题而且我think我发现了一个案例他们可能会有所帮助我有以下几部分需要处理一组正则表达式旨在清理状态名称位于函数中具有州名称上述函数创建的标准化形式和州 ID 代码的 data frame 用于链接两者
无法更改 RStudio 中的 R 版本

我的 RStudio V 0 99 491 无法更改 R 版本我以平常的方式行事Global Options gt R Version 然后它挂起并且不再工作或反应 R 运行良好的初始版本是R 3 1 0 我以前从未遇到过这样的问题也许

随机推荐

在工厂和控制器之间共享 http.get 数据

我成功创建了一个获取 php 文件输出 JSON 的工厂我的问题是如何从控制器内访问它 myApp angular module myApp myApp factory mainData http gt http get gethome
Kotlin 构造函数（主构造函数）

我有一个关于 Kotlin 构造函数的问题 class abc constructor a Int constructor a Int e Int class def a Int constructor a Int e Int this a
NSubstitute 不匹配 Linq 表达式

我正在实现一个存储库模式查询类并使用 NSubstitute 进行测试存储库接口 public interface IMyRepository IQueryable
在 PHP 中获取日期和数字工作日

我正在用 PHP 开发一个应用程序我需要使用日期和工作日的数字表示我尝试过以下方法 today date Y m d number date N strtotime today echo Today today weekday numb
安装 confluence-kafka 时“文件名或扩展名太长”？

我在使用 pip install confluence kafka 安装 confluence kafka 时遇到一些问题但我收到此错误文件名或扩展名太长详细信息如下 Collecting confluent kafka Using
google api 时刻错误 Google.GoogleApiException

我正在使用谷歌API 我尝试插入时刻但出现错误 Google GoogleApiException 未处理 Message 发生错误但错误响应无法反序列化来源 Google Apis 服务名称任务我的代码创建服务 var serv
是否可以限制仅 Microsoft Graph 应用程序的权限？

我正在开发一个应用程序来通过 Microsoft Graph 管理房间预订最后应用程序需要读取并取消预订到某个房间资源帐户的会议不幸的是只有许可Calendars ReadWrite这使应用程序有权读取和写入租户中的每个用户日历包
读取 CSV 文件单列的更快方法

我正在尝试阅读一个列CSV文件至R尽快我希望将标准方法将列放入 RAM 所需的时间减少 10 倍我的动机是什么我有两个文件一个叫Main csv这是 300000 行和 500 列其中一个称为Second csv即 300000
如何使用 GWT 检测操作系统？

Basically what I want to know is to find out if my GWT application is running on a MacOS or any other operating system t
Java 将函数添加到 json 对象而不使用引号。

我正在用 java 构建一个 json 对象我需要将一个函数传递到我的 javascript 中并使用 jquery isFunction 对其进行验证我遇到的问题是我必须将 json 对象中的函数设置为字符串但 json 对象将周围
我可以在 Rust 中将 const 与重载运算符一起使用吗？

在此代码中 allow dead code use std ops Add struct Foo i32 const X i32 1 const Y i32 X X const A Foo Foo 1 const B Foo A A imp
pentaho 从不同的 csv 中相互划分 2 列

在pentaho中我有2个csv文件我需要将列彼此分开并将结果写入新表中 1 csv No A B 1 10 14 2 8 20 2 csv No A B 1 2 7 2 4 10 输出应该是输出 csv No A B 1 5 2 2
JS 中的展开/休息运算符如何工作？ [复制]

这个问题在这里已经有答案了我正在努力完全理解扩展休息运算符在 JS 中的工作原理我已经阅读了 MDN 文档但我仍然不完全清楚我在下面提供了一个示例我在其中使用了它并且它按预期工作 const users name Samir a
如何从 AppDelegate.m 设置 tabBarItem 的徽章（tabBarView 不是根视图）[重复]

这个问题在这里已经有答案了我可以通过以下代码更改 AppDelegate m 中的徽章值 UITabBarController tabController UITabBarController self window rootViewCo
Python list.extend() 是保序的吗？

我想知道扩展函数是否保留两个列表中的顺序 gt gt list 1 2 3 gt gt list extend 4 5 gt gt list 1 2 3 4 5 扩展总是这样工作吗 Yes list extend just extends给
类和结构在填充和继承方面的区别

以下所有操作都将在 GCC 9 1 上使用编译器资源管理器 https github com mattgodbolt compiler explorer 在 x86 64 中使用 O3 我有这个代码 struct Base Base do
Xcode 项目/应用程序名称带有空格问题 - 找不到框架

Xcode 6 1 是否可能因为我的 3 个单词应用程序名称而找不到我之前导入的框架我正在使用 Parse 从来没有遇到过任何问题但实际上当我在 Xcode 中打开我的项目时我收到一个错误提示框架未找到这是荒谬的因为它之前运行
预提交钩子 git 错误

我正在尝试在 python 中执行预提交 git hook 以检查文件的行长度是否小于 80 个字符但是我收到没有此类文件目录的错误我在 fedora 上并设置了 usr bin python help 将不胜感激 usr bin e
Javascript - 从 AWS s3 存储桶读取镶木地板数据（使用快速压缩）

In nodeJS 我正在尝试读取镶木地板文件压缩 snappy 但没有成功 I used https github com ironSource parquetjs https github com ironSource parquet
如何识别 R 中行的镜像重复项

在下面的SO帖子中如何识别 R 中行的部分重复项 https stackoverflow com questions 54661129 how to identify partial duplicates of rows in r 5466

如何识别 R 中行的镜像重复项

如何识别 R 中行的镜像重复项 的相关文章

随机推荐

热门标签

如何识别 R 中行的镜像重复项的相关文章