R 查找元组的“组”[重复]

2024-01-14

我试图找到“组”（id3）基于两个变量（id1, id2):

df = data.frame(id1 = c(1,1,2,2,3,3,4,4,5,5),
            id2 = c('a','b','a','c','c','d','x','y','y','z'),
            id3 = c(rep('group1',6), rep('group2',4)))


   id1 id2      id3
1    1   a   group1
2    1   b   group1
3    2   a   group1
4    2   c   group1
5    3   c   group1
6    3   d   group1
7    4   x   group2
8    4   y   group2
9    5   y   group2
10   5   z   group2

例如id1=1与a and b of id2. But id1=2也与a所以两者都属于一个组（id3=group1）。但是由于id1=2 and id1=3 share id2=c, also id1=3属于该组（id3=1）。元组的值((1,2),('a','b','c'))没有出现在其他地方，因此没有其他行属于该组（标记为group1一般而言）。

如果你需要照顾NAs，检查这个类似的帖子 https://stackoverflow.com/questions/67331014/r-find-groups-of-tupples-ignoring-nas

我的想法是创建一个基于id3随后将在循环中填充。

solution = data.frame(id3= c('group1', 'group2'),id1=NA, id2=NA)
group= 1 

for (step in c(1:1000)) { # run many steps to make sure to get all values
  solution$id1[group] = # populate  
  solution$id2[group] = # populate  

  if (fully populated) {
    group = group +1
  }}

我正在努力了解如何填充。

免责声明：我问过类似的问题here https://stackoverflow.com/questions/54691062/how-to-find-unique-identifiers-by-fuzzy-string-variables?noredirect=1#comment96170733_54691062，但使用名称id2导致很多人向我指出 R 中的模糊字符串过程，这里不需要这些过程，因为存在精确的解决方案。我还在这篇文章中包含了从那时起我尝试过的所有代码。

您可以利用igraph找到不同的网络集群

library(igraph)
g <- graph_from_data_frame(df, FALSE)
cg <- clusters(g)$membership
df$id3 <- cg[df$id1]
df

output:

   id1 id2 id3
1    1   a   1
2    1   b   1
3    2   a   1
4    2   c   1
5    3   c   1
6    3   d   1
7    4   x   2
8    4   y   2
9    5   y   2
10   5   z   2

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

R 查找元组的“组”[重复] 的相关文章

指定 R 中 hist() 中的 bin 数量？

我尝试指定垃圾箱的数量hist R为10 如下 gt hist x breaks 10 但垃圾箱的数量并不完全是 10 我尝试了几个其他数量的垃圾箱结果发生了同样的情况 hist says breaks可以指定给出直方图单元格数量的单个
使用底格里斯河从纬度/经度获取人口普查区

我有相对较多的坐标我想获取其人口普查区除了 FIPS 代码我知道我可以使用以下命令查找各个纬度经度对call geolocator latlon 已完成here https stackoverflow com questions 5
将值替换为其各自列的名称

我有一个数据框 Code 401k CVS 101A true 231N true FD54 true 99JB 85F4 true 我试图用相应的列名称例如 401k 替换 true 字符值这是我想要的输出 Code 401k CVS
如何使用 R 中带引号的字符值内的序列读取 CSV？

这是一个包含两个字符列的 CSV 文件 key value a 所有字符值都用双引号引起来并且有一个顺序在值之一内转义引号加分隔符我无法通过 read csv readr 中的 read csv 或 data table 中的 fr
如何更新条件公式？

让我直接进入示例考虑以下等式 frml lt formula y a b x z 使用这样的公式规范例如和AER ivreg 我想更新这个公式使其显示为 frml2 lt y a b c x z w 但是我不确定如何更新条件标志之前
查找数据帧列表中同一列中的所有重复值并将其转换为 NULL

我有一个清单BELGIAN COAST list包含数百个数据帧 df1 df2 15 列 X 1000 行每个数据帧的最后一列称为Chemicals并包含一些字符例如Sulfate or Ammonia 但是这一列有很多行Chemic
错误：“rjags”的包或命名空间加载失败

在终端的 conda 环境之一中我能够成功安装包 rjags 但是当我在该环境中运行 R 并运行库 rjags 时出现以下错误加载所需的包 coda 错误 rjags 的包或命名空间加载失败 rjags 的 loadNamespac
从 R 环境中删除对象

我正在阅读 Hadley 的 Advanced R 在第 8 章中他说我们可以使用以下方法从环境中删除对象 rm 但是移除该物体后我仍然可以看到该物体这是我的代码 e lt new env e a lt 1 e b lt 2 e a
R.matlab/readMat：readTag(this) 中出错

我正在尝试使用 R matlab 将 matlab 文件读入 R 但遇到此错误 require R matlab r lt readMat file mat verbose T Trying to read MAT v5 file stre
在另一个 Rmd 中运行选定的块

我已经在源 Rmd 文件中运行了分析并且希望仅使用few来自源的块我已经看到了一些关于从源 Rmd 中提取所有块的答案来自另一个 Rmd 中的 Rmd 文件的源代码 https stackoverflow com questions 4
R 更改小数位且不四舍五入

gt signif 1 89 digits 2 1 1 9 我想要1 8 这有点笨拙但它会起作用并保持所有数字 x lt 1 829380 trunc dec lt function x n floor x 10 n 10 n Resul
将函数应用于 3d 数组的每一层，返回一个数组

假设您有一个包含行列和层的 3 维数组 A lt array 1 27 c 3 3 3 想象你有一个函数它接受一个矩阵作为输入并返回一个矩阵作为输出就像t 如何将该函数应用于数组的每一层返回与第一层大小相同的另一个数组我觉得我应该
解析，用三点参数替换

让我们考虑一个典型的deparse substitute R call f1 lt function u x y print deparse substitute x varU vu varX vx varY vy f1 u varU x
有没有一种简单的方法来判断存储在一个列表中的许多数据帧是否包含相同的列？

我有一个包含许多数据框的列表 df1 lt data frame A 1 5 B 2 6 C LETTERS 1 5 df2 lt data frame A 1 5 B 2 6 C LETTERS 1 5 df3 lt data frame
R：将 JSON 时间格式转换为 POSIX

我有一个 JSON 字符串并将其放入数据框中我能够做到这一点但我在使用 apply 函数之一将所有时间字符串转换为 POSIX 格式时遇到问题 See here https stackoverflow com questions 90
如何在R中同时对三个字段进行网络分析

如何在 R 中同时对三个字段进行网络分析下面是示例数据以及desired output在最后一栏中 df lt data frame stringsAsFactors FALSE id 1 c ABC ABC BCD CDE DEF EF
为什么 geom_boxplot 比基本箱线图识别更多异常值？

这是一个可重复的示例与基本箱线图相比最后一个治疗组又发现了一个异常值 dta lt structure list Treatment c A A A A A A A A A A A A A A A A B B B B B B B B B
使用 dplyr::filter 的整洁方式是什么？

使用下面的函数调用foo c b 输出以内联方式显示正确的写作方式是什么df gt filter x gt x 我已经包含了一个使用的示例mutate以整洁的风格与之对比filter foo lt function variables x
如何匹配 R 中的所有匹配项？

我有 1000 个名字的列表说A 我还有另外 5 个名字的清单说B 我想找出这5个名字出现在1000个号码列表中的第几行例如 Amy 在 A 中可以出现 25 次 B 里有艾米我想知道 Amy 出现在 A 中的哪些行我以前使用过
非闪亮上下文中的反应式对象绑定

实际问题你怎样才能近似反应性环境行为 http shiny rstudio com tutorial lesson6 建立者shiny http shiny rstudio com函数或者甚至可能在一个函数中使用这些函数无光泽上下文以

随机推荐

如何在气流中使用 CLI 清除失败的 DAG

我有一些失败的 DAG 比如说从 2 月 1 日到 2 月 20 日从那天起他们都成功了我尝试使用cli https airflow apache org cli html clear 而不是使用 Web UI 执行二十次 airfl
AppEngine 端点 JsonMappingException - 避免字段被序列化

我有这个错误 com google appengine repackaged org codehaus jackson map JsonMappingException Direct self reference leading to cy
System.Security.Cryptography.CryptographicException：RSACryptoserviceProvider 中的长度错误

我想使用加密和解密数据RSACryptoServiceProvider在 wp8 项目中的 c 中我正在创建非对称密钥 CspParameters parameters new CspParameters parameters KeyCo
隐藏html水平但不垂直的滚动条

我有一个宽度固定但高度可变的 HTML 文本区域我想设置overflow scroll并能够显示垂直滚动条但不能显示水平滚动条我无法使用overflow auto由于其他特定于我的情况的事情我知道使用 CSS2 无法仅显示垂直滚动条
在Python中将不规则间隔的数据重新采样为规则网格

我需要将二维数据重新采样为常规网格这就是我的代码的样子 import matplotlib mlab as ml import numpy as np y np zeros 512 115 x np zeros 512 115 Just
如何使用php连接远程mysql数据库（托管在dotCloud上）

我无法连接到位于 dotCloud 上的数据库我试过 mysqli new mysqli db host db user db password db name and mysqli mysqli connect db host db u
如何查找最新或最近的AWS RDS快照？

我可以打电话aws rds describe db snapshots db instance identifier my db instance 并对所有自动快照进行排序以找到最近创建的快照但我希望有人有更好的主意对我来说这个有效
如何在 Banana PI ZERO M2 上启用 eth0

默认情况下 BPI ZERO M2 上禁用 eth0 这里我们将展示启用它解决方案是创建一个 dtdo 文件并将其放在正确的位置 1 创建文本源文件 bananapi m2 zero eth0 dts dts v1 plugin mode
VBScript - 如何让程序等待进程完成？

我在与 VBA Excel 宏和 HTA 一起使用的 VBScript 中遇到问题问题只是 VBScript 我还有其他两个组件即 VBA 宏和 HTA 前端工作正常但在我解释问题之前我认为为了让您帮助我我必须帮助您了解 VBS
' 在 dart 中没有零参数构造函数' aria-label='超类 'Bloc' 在 dart 中没有零参数构造函数'> 超类 'Bloc' 在 dart 中没有零参数构造函数

我是 Dart 语言开发的初学者我尝试创建一个示例 flutter 应用程序 BLOC 模式其灵感来自于这个 GitHub 存储库 https github com newajthevillager FirebaseUserAuthen
如何在 jenkins 中获取作业的相应构建工件？

我使用创建 Jenkins 工作hudson cli CLI jar 我已选择将文物归档选项中的构建后步骤部分它对每个成功构建的工件进行归档我在用詹金斯远程访问API http localhost 8080 job job na
当最后一个进程处于尾部时未捕获 SIGTERM 信号

我有以下脚本其中有tail pid somepid f mylogs 我想抓住SIGTERM并对该 PID 进行一些正常关闭因为该进程无法理解SIGTERM并痛苦地死去 echo pid trap with arg func 1 shi
查找 Spark DataFrame 中每组的最大行数

我尝试使用 Spark 数据帧而不是 RDD 因为它们似乎比 RDD 更高级并且往往会生成更可读的代码在 14 个节点的 Google Dataproc 集群中我有大约 600 万个名称这些名称由两个不同的系统转换为 id sa a
转换日期Python

I have MMDDYY日期即今天是111609 我如何将其转换为11 16 2009 用Python 我建议如下 import datetime date datetime datetime strptime 111609 m d y
循环变量是否始终是新创建的

在下面的代码中我使用变量名称n对于局部变量和循环计数器 proc main var n 700 writeln n before loop n for n in 1 3 writeln n n writeln n after loop n
Tensorflow pad序列特征列

如何在特征列中填充序列以及什么是dimension in the feature column 我在用Tensorflow 2 0并实现文本摘要的示例对于机器学习深度学习和 TensorFlow 来说还很陌生我碰到feature co
使用表达式模板自动微分 C++

介绍我正在尝试了解表达式模板因为它似乎是一种适用于各种计算的非常强大的技术我在网上查看了不同的例子例如维基百科 https en wikipedia org wiki Expression templates 我编写了一堆执行不同计
如何解决Python中的语法错误

由于 Stack Overflow 上有很多问题涉及SyntaxError在 Python 中我们可能想知道我们如何应对SyntaxError 有没有可以普遍应用的策略 0 错误出现之前语法高亮和代码格式化甚至在遇到一个Syntax
如何伪造Python requests/beautifulsoup中启用的javascript

我正在尝试抓取一个网站该网站返回一条错误消息表明您的 js 已禁用并且您可能是机器人我试图在网络浏览器中看到相同的行为是的相同的响应但是如果启用了 JavaScript 它不会影响原始响应我的意思是原始响应不依赖于 JS 所
R 查找元组的“组”[重复]

这个问题在这里已经有答案了我试图找到组 id3 基于两个变量 id1 id2 df data frame id1 c 1 1 2 2 3 3 4 4 5 5 id2 c a b a c c d x y y z id3 c rep gro

R 查找元组的“组”[重复]

R 查找元组的“组”[重复] 的相关文章

随机推荐

热门标签