使用 dplyr 将唯一 ID 分配给组内的不同值

2023-12-02

问题：我需要为具有两级分组的数据创建一个唯一的 ID 字段。在这里的示例代码中，它是Emp and Color。 ID 的结构需要如下：

Emp+ 每个的唯一编号Color+ 重复的序列号Colors.

这些值由句点分隔。
示例数据：

dat <- data.frame(Emp = c("A","A","A","B","B","C"), 
              Color = c("Red","Green","Green","Orange","Yellow","Brown"),
              stringsAsFactors = FALSE)

ID 应该显示如下：

ID <- c("A.01.001", "A.02.001", "A.02.002", "B.01.001", "B.02.001", "C.01.001")

ID [1] “A.01.001” “A.02.001” “A.02.002” “B.01.001” “B.02.001” “C.01.001”

用于记录重复项的 ID 的三个字符后缀可以如下完成：

 group_by(dat, Emp, Color) %>%
         mutate(suffix = str_pad(row_number(), width=3, side="left", pad="0"))

但我无法为唯一出现的Color与每个Emp group.

我更喜欢 dplyr 解决方案，但任何方法都会受到赞赏。

Using data.table and sprintf:

library(data.table)
setDT(dat)[, ID := sprintf('%s.%02d.%03d', 
                           Emp, rleid(Color), rowid(rleid(Color))), 
           by = Emp]

you get:

> dat
   Emp  Color       ID
1:   A    Red A.01.001
2:   A  Green A.02.001
3:   A  Green A.02.002
4:   B Orange B.01.001
5:   B Yellow B.02.001
6:   C  Brown C.01.001

这是如何运作的：

你转换dat to a data.table with setDT()
通过...分组Emp.
并创建ID- 变量与sprintf-功能。和sprintf您可以根据指定的格式轻松地将多个矢量粘贴在一起。
指某东西的用途:=意味着data.table通过引用更新。
%s表示在第一部分中使用一个字符串（即Emp). %02d & %03d表示数字需要有两位或三位数字，并在需要时带前导零。之间的点将按字面意思理解，因此包含在结果字符串中。

解决@jsta的评论，如果Color-列不是连续的，您可以使用：

setDT(dat)[, r := as.integer(factor(Color, levels = unique(Color))), by = Emp
           ][, ID := sprintf('%s.%02d.%03d', 
                             Emp, r, rowid(r)), 
             by = Emp][, r:= NULL]

这也将保持顺序Color列提出。代替as.integer(factor(Color, levels = unique(Color)))你也可以使用match(Color, unique(Color))如阿克伦所示。

在更大一点的数据集上实现上述内容来说明：

dat2 <- rbindlist(list(dat,dat))
dat2[, r := match(Color, unique(Color)), by = Emp
     ][, ID := sprintf('%s.%02d.%03d', 
                     Emp, r, rowid(r)), 
     by = Emp]

让你：

> dat2
    Emp  Color r       ID
 1:   A    Red 1 A.01.001
 2:   A  Green 2 A.02.001
 3:   A  Green 2 A.02.002
 4:   B Orange 1 B.01.001
 5:   B Yellow 2 B.02.001
 6:   C  Brown 1 C.01.001
 7:   A    Red 1 A.01.002
 8:   A  Green 2 A.02.003
 9:   A  Green 2 A.02.004
10:   B Orange 1 B.01.002
11:   B Yellow 2 B.02.002
12:   C  Brown 1 C.01.002

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dplyr

使用 dplyr 将唯一 ID 分配给组内的不同值的相关文章

如何让 print() 将参数传递给 R 中用户定义的打印方法？

我在 R 中定义了一个 S3 类它需要自己的打印方法当我创建这些对象的列表并打印它时 R 按其应有的方式对列表中的每个元素使用我的打印方法我想对打印方法实际显示的数量进行一些控制因此我的类的 print 方法需要一些额外的参数但
如何获得 STAN 中最大似然估计的标准误差？

我在 Stan 中使用最大似然优化但不幸的是optimizing 函数不报告标准错误 gt MLb4c lt optimizing get stanmodel fitb4c data win data init inits STAN OP
替换列表列表中的元素

The applyR 中的函数是简化 for 循环以获得输出的好方法是否有一个等效的函数可以帮助人们在替换向量的值时避免 for 循环通过示例可以更好地理解这一点 Take this list for example x list li
如何提取与 R 中主题 ID 列表匹配的行？

我有一个包含许多主题 ID 的数据框每个主题都有重复观察我还有一个单独的数据框其中只有一个主题 ID 列表我想从更大的数据框中匹配和提取如何以允许我引用不同数据帧中的SubjectID列表的方式编写代码不确定我是否完全理解这个问
R 根据事件更新值

我最近发布了这个问题该问题已经与我在笔记本电脑上本地使用的 Mysql 数据库相关由于我在 Mysql 中没有找到问题的解决方案其他人似乎也没有找到解决方案所以我想再次发布它但现在与 R 相关我使用带有 RMysql 包的数据库
将 Instagram/youtube 嵌入 Shiny R 应用程序

我想通过点击图表来播放 Instagram 或 Youtube 视频例如显示异常值等到目前为止明确告诉 Shiny 视频内容是有效的 require shiny require ggplot2 data df lt data fram
.wav 文件长度/持续时间，无需读入文件

有没有办法提取有关 wav 文件长度持续时间的信息而无需在 R 中读取文件我有数千个这样的文件如果我必须阅读每个文件才能找到其持续时间那将需要很长时间 Windows 文件资源管理器为您提供了打开长度字段的选项并且您可以查看
numpy.histogram 的 hist 维度，密度 = True

假设我有这个数组 A array 0 0019879 0 00172861 0 00527226 0 00639585 0 00242005 0 00717373 0 00371651 0 00164218 0 00034572 0 008
在 R 中创建一个运行计数变量？

我有一个足球比赛结果的数据集我希望通过创建一组类似于世界足球 Elo 公式的运行评级来学习 R 我遇到了麻烦在 Excel 中看似简单的事情在 R 中并不完全直观例如 4270 个观察中的前 15 个具有必要的变量 date t 1
如何用外部图像填充地图边界？

我正在创建一张带有州边界的巴西地图这可以直接使用ggplot2 and geom sf 然而这一次我不想用数据填充每个状态的颜色而是想用外部图像 png 填充每个状态的边界类似于this https online olivet e
计算每个唯一值出现的次数

假设我有 v rep c 1 2 2 2 25 现在我想计算每个唯一值出现的次数 unique v 返回唯一值是什么但不返回它们的数量 gt unique v 1 1 2 我想要一些能给我的东西 length v v 1 1 25 le
在 R 中向散点图添加线条

如何向图表添加线条我做了以下 dat lt data frame xvar 1 20 rnorm 20 sd 10 yvar 1 20 rnorm 20 sd 10 zvar 1 20 rnorm 20 sd 10 plot dat 1
纵向序列数据的三次样条方法？

我有一个串行数据格式如下 time milk Animal ID 30 25 6 1 31 27 2 1 32 24 4 1 33 17 4 1 34 33 6 1 35 25 4 1 33 29 4 2 34 25 4 2 35 24
如何使用 R 计算成为列表中中位数的概率？

假设我有以下数据集其中显示了假设实验的每个状态的三个观察结果的列表 state lt c Iowa Minnesota Illinois outcome lt list c 5 11 11 c 3 12 8 c 9 14 2 dat lt
绘制点之间的所有线

我有以下 R 代码 x lt c 0 01848598 0 08052353 0 06741172 0 11652034 y lt c 0 4177541 0 4042247 0 3964025 0 4074685 d lt data fr
Purrr::map_df() 删除 NULL 行

使用时purrr map df 我偶尔会传递一个数据框列表其中一些项目是NULL 当我做 map df 返回行数少于原始列表的数据框我想发生的事情是这样的map df calls dplyr bind rows 它忽略了NULL价值观
将每列的值乘以 R 中另一个 data.frame 中的权重

我有两个data frames df and weights 代码如下 df看起来像这样 id a b d EE f 1 this 0 23421153 0 02324956 0 5457353 0 73068586 0 5642554 2
ggplot2 geom_密度和geom_histogram在一个图中

如何制作一个所有条形加起来为 1 的直方图并在适合的上方添加一个密度层 set seed 1234 df lt data frame sex factor rep c F M each 200 weight round c rnorm 2
将数据框中重叠的范围合并到唯一的组中

我有一个 n 行 3 的数据框 df lt data frame start c 178 400 983 1932 33653 end c 5025 5025 5535 6918 38197 group c 1 1 2 2 3 df sta
相当于 min() 的 rowMeans()

我在 R 邮件列表上多次看到这个问题但仍然找不到满意的答案假设我有一个矩阵m m lt matrix rnorm 10000000 ncol 10 我可以通过以下方式获得每行的平均值 system time rowMeans m use

随机推荐

Hibernate 的旧版 org.hibernate.Criteria API 已弃用

当我使用 Hibernate 5 时它显示错误 2018 年 4 月 28 日下午 12 24 45 org hibernate internal SessionImpl createCriteria 警告 HHH90000022 Hib
一个好的错误跟踪工具应该具备什么功能？ [关闭]

Closed 这个问题是基于意见的目前不接受答案我发现很多问题都要求最好的工具但没有一个问题要求最好的工具功能你真正需要的你有什么特点never真的需要吗我发现自己正在比较特征矩阵上的工具这是我讨厌的因为最终我将只使用 3
在文本区域中显示换行符之间的分隔

我想要 HTML5 的视觉表示
从 C 访问 MATLAB 的 unicode 字符串

如何通过 MATLAB Engine 或 MEX C 接口访问 MATLAB 字符串的底层 unicode 数据这是一个例子让我们将 unicode 字符放入 UTF 8 编码的文件 test txt 中然后将其读取为 fid fop
使用 mysql 中的值填充选择输入字段

我的表单有输入字段其值是从 mysql 表填充的在我的 select 语句中我将这些值传递给字段该表称为person并且有一个唯一的idperson id和外键academy id 每个人都有一个地位active or inacti
如何使用PHP CURL绕过跨域

我需要 PHP 将参数从一个域提交到另一个域 JavaScript 不适合我的情况我现在尝试将 CURL 与 PHP 结合使用但未能成功绕过跨域从domain A 我有一个包含以下 PHP 和 CURL 脚本的页面 if iscurl
错误 - 方案“pkg/runtime/scheme.go:100”中的版本“authentication.gke.io/v2alpha1”没有注册任何种类“ClientConfig”

下面是代码谷歌云中的 kubernetes 集群 URL 无效 10 xx xx xx package main import fmt k8s io client go kubernetes k8s io client go tools
散点图上的不同颜色编码和标记

我想创建一个seaborn散点图使用以下数据框 df pd DataFrame A 1 2 3 4 B 2 4 6 8 C y y n n D 1 1 2 2 在我的图表中A应该是x variable and B the y variab
Flutter 未在发布的 apk 上在真实设备中渲染 UI

我一直在为我的应用程序编写 ui 在调试模式下构建时没问题但是当我构建发布 apk 时用户界面变得模糊并且文本不显示小部件的渲染不符合预期并且它们的大小渲染不正确我在不同的手机上检查过但结果是一样的是我的代码有问题还是flu
通过排除导航和 Chrome 内容从 HTML 页面中提取纯内容/文本

我正在爬取新闻网站想要提取新闻标题新闻摘要第一段等我插入了 webkit 解析器代码以树状方式轻松导航网页为了消除导航和其他非新闻内容我采用文章的文本版本减去 html 标签 webkit 提供了相同的 api 然后我运行
Codeigniter 显示错误：未选择数据库

我正在使用 Codeigniter DBForge 类在该数据库中创建数据库和表这是代码 if this gt dbforge gt create database new db fields array blog id gt array
对 sprintf 格式 '-Flag 的跨平台支持

The 单一 UNIX 规范版本 2指定sprintf的格式将行为标记为 The integer portion of the result of a decimal conversion i d u f g or G will be f
通过非制表符分隔符实现非结构化 XML？

我们有一个复杂的 XML 结构而且非常大 gt 500 MB 该结构的XSD为 This XSD 众所周知这是一个复杂的问题由于大小或非制表符分隔符结构我无法将其转换为可读性更好的演示文稿我想通过 C 读取这个文件并搜索药物名称
SQL Server LAG() 函数计算行之间的差异

我是 SQL Server 新手对 lag 函数有一些疑问我必须计算两个用户活动之间的平均距离以天为单位然后我必须对所有用户进行分组计算每个用户的行之间的所有日期差异最后选择该组的平均值 Just to be clear I
CUDA 中的全局内存与动态全局内存分配

我有一个 CUDA v5 5 应用程序需要使用全局内存理想情况下我更喜欢使用常量内存但我已经耗尽了常量内存溢出的内容必须放置在全局内存中我还有一些需要偶尔写入的变量在 GPU 上进行一些缩减操作之后我将其放置在全局内存中为了
请求另一个域/服务器上的内容

我正在尝试请求位于另一个域服务器上的数据但是当我尝试发送请求时遇到异常 var request new XMLHttpRequest request open GET http www w3schools com ajax cd cat
nginx proxy_pass 与socks5 代理？

我正在尝试设置 proxy pass 同时也使用袜子5代理我可以使用以下命令通过curl 访问我的支持服务 curl x socks5h localhost 8001 svo dev null I http abcd 1234 8000
如何使用 Ruby 找到目录中最近修改的文件夹？

如何使用 Ruby 在目录中找到最近修改的文件夹不是文件 Dir glob a directory max by f File mtime f Dir glob a directory 返回中的所有目录名称a directory 作为字符
警告消息澄清

我在用着SNPassoc用于查找数据 SNP 和连续变量结果之间关联的 R 包我进行了分析并得到了结果但是我收到警告消息 Warning in terms formula formula data data varlist has c
使用 dplyr 将唯一 ID 分配给组内的不同值

问题我需要为具有两级分组的数据创建一个唯一的 ID 字段在这里的示例代码中它是Emp and Color ID 的结构需要如下 Emp 每个的唯一编号Color 重复的序列号Colors 这些值由句点分隔示例数据 dat lt da

使用 dplyr 将唯一 ID 分配给组内的不同值

使用 dplyr 将唯一 ID 分配给组内的不同值 的相关文章

随机推荐

热门标签

使用 dplyr 将唯一 ID 分配给组内的不同值的相关文章