使用 dplyr 在 R 中使用 group_by 生成唯一/随机序列号

2024-04-05

我想使用 R 生成按某些列分组的唯一数字（序列或随机）。

下面提供了一个示例数据集

fact_code  style_         item             buyer
1206       -23            LADIES TANK TOP  652
1206       -23            LADIES TANK TOP  652
1206       -23            LADIES TANK TOP  652
1214       593935_592435  SS T-SHIRT       254
1214       593935_592435  SS T-SHIRT       254 
1214       593935_592435  SS T-SHIRT       254
7022       1572472        T-SHIRT          338
7022       1572472        T-SHIRT          338
7022       1572472        T-SHIRT          338

使用上面的数据，我想创建一个变量，例如，style_serial，如下所示：

fact_code  style_         item             buyer style_serial
1206       -23            LADIES TANK TOP  652   1
1206       -23            LADIES TANK TOP  652   1
1206       -23            LADIES TANK TOP  652   1   
1214       593935_592435  SS T-SHIRT       254   2
1214       593935_592435  SS T-SHIRT       254   2 
1214       593935_592435  SS T-SHIRT       254   2
7022       1572472        T-SHIRT          338   3
7022       1572472        T-SHIRT          338   3
7022       1572472        T-SHIRT          338   3

也就是说，创建一个变量，该变量采用按事实_代码、样式_、项目和买家列分组的唯一值。我已经尝试使用以下 R 代码dplyr包裹：

df <- df %>%
dplyr::group_by(fact_code, style_, buyer) %>%
dplyr::mutate(style_serial = 1:n())

where df是上述示例数据框的名称。但它给了我意想不到的输出：

fact_code  style_         item             buyer style_serial
1206       -23            LADIES TANK TOP  652   1
1206       -23            LADIES TANK TOP  652   2
1206       -23            LADIES TANK TOP  652   3   
1214       593935_592435  SS T-SHIRT       254   1
1214       593935_592435  SS T-SHIRT       254   2 
1214       593935_592435  SS T-SHIRT       254   3
7022       1572472        T-SHIRT          338   1
7022       1572472        T-SHIRT          338   2
7022       1572472        T-SHIRT          338   3

我不介意 style_serial 是否是随机的整数集，因此数据将如下所示：

fact_code  style_         item             buyer style_serial
1206       -23            LADIES TANK TOP  652   10
1206       -23            LADIES TANK TOP  652   10
1206       -23            LADIES TANK TOP  652   10   
1214       593935_592435  SS T-SHIRT       254   2
1214       593935_592435  SS T-SHIRT       254   2 
1214       593935_592435  SS T-SHIRT       254   2
7022       1572472        T-SHIRT          338   100
7022       1572472        T-SHIRT          338   100
7022       1572472        T-SHIRT          338   100

为了生成上表，我运行以下命令R code:

df <- df %>%
dplyr::group_by(fact_code, style_, buyer) %>%
dplyr::mutate(style_serial = sample(1:6000, n(), replace = FALSE))

但是，我无法获得所需的输出。

主要目标是在本例中创建一个变量 style_serial，它假定按一定数量的列分组的唯一值，即在本例中为fact_code、style_、item 和 Buyer。

任何帮助，将不胜感激。

我们可以用group_indices from dplyr

library(dplyr)
df %>%
   mutate(style_serial = sample(6000)[group_indices(.,fact_code, style_, buyer)])
# fact_code        style_            item buyer style_serial
#1      1206           -23 LADIES TANK TOP   652         5778
#2      1206           -23 LADIES TANK TOP   652         5778
#3      1206           -23 LADIES TANK TOP   652         5778
#4      1214 593935_592435      SS T-SHIRT   254          998
#5      1214 593935_592435      SS T-SHIRT   254          998
#6      1214 593935_592435      SS T-SHIRT   254          998
#7      7022       1572472         T-SHIRT   338         3018
#8      7022       1572472         T-SHIRT   338         3018
#9      7022       1572472         T-SHIRT   338         3018

注意：数字是random化为sample，如果我们不需要它，则删除sample part

df %>%
  mutate(style_serial = group_indices(.,fact_code, style_, buyer))

或者使用base R

v1 <- with(df, do.call(paste, df[1:3]))
df$style_serial <-  match(v1, unique(v1))

data

df <- structure(list(fact_code = c(1206L, 1206L, 1206L, 1214L, 1214L, 
1214L, 7022L, 7022L, 7022L), style_ = c("-23", "-23", "-23", 
"593935_592435", "593935_592435", "593935_592435", "1572472", 
"1572472", "1572472"), item = c("LADIES TANK TOP", "LADIES TANK TOP", 
"LADIES TANK TOP", "SS T-SHIRT", "SS T-SHIRT", "SS T-SHIRT", 
"T-SHIRT", "T-SHIRT", "T-SHIRT"), buyer = c(652L, 652L, 652L, 
254L, 254L, 254L, 338L, 338L, 338L)), class = "data.frame", row.names = c(NA, 
-9L))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

DataFrame

dplyr

使用 dplyr 在 R 中使用 group_by 生成唯一/随机序列号的相关文章

为什么 dplyr filter() 不能在函数内工作（即使用变量作为列名）？

使用 dplyr 函数对数据进行过滤分组和变异的函数基本管道序列在函数之外工作得很好这就是我使用真实列名称的地方将其放入一个函数中其中列名称是一个变量并且某些函数可以工作但有些函数则不能尤其是 dplyr filter 例如
在 R 格子包中微调点图

我正在尝试为不同的数据集和不同的算法绘制一堆 ROC 区域我有三个变量方案指定所使用的算法数据集是正在测试算法的数据集以及 Area under ROC 我正在 R 中使用lattice库命令如下点图方案 Area und
R 中的列乘以子字符串

假设我有一个数据框其中包含多个组件及其在多个列中列出的属性并且我想对这些列运行多个函数我的方法是尝试将其基于每个列标题中的子字符串但我无法弄清楚如何做到这一点下面是数据框的示例 Basket F Type 1 F Qty 1 F
r 中训练和测试数据的最小最大缩放/归一化

我正在创建一个函数它将训练集和测试集作为其参数最小最大缩放标准化并返回训练集并使用这些same最小值和最小最大范围的值标准化并返回测试集到目前为止这是我想出的功能 min max scaling lt function tr
在 R 中使用 lapply 绘制多个数据帧

我正在尝试使用 lapply 函数绘制多个数据帧每个数据帧一个图但是尽管有关此主题的所有帖子我都找不到答案因为我不断收到错误图的输出列表为空我的数据结构如下 df1 lt mtcars gt group by cyl gt tal
将数据框中重叠的范围合并到唯一的组中

我有一个 n 行 3 的数据框 df lt data frame start c 178 400 983 1932 33653 end c 5025 5025 5535 6918 38197 group c 1 1 2 2 3 df sta
使用 Shiny 发布平行坐标图表时出现“错误：路径[1]="”：没有这样的文件或目录”

我有一个似乎很常见但我还没有找到解决方案的问题当尝试使用 rCharts Parcoords 发布 Web 应用程序时出现以下错误错误路径 1 没有这样的文件或目录奇怪的是该应用程序在我的笔记本电脑上运行得很好下面是我正在使用
文本挖掘 pdf 文件/词频问题

我正在尝试挖掘一篇具有丰富 pdf 编码和图表的文章的 pdf 我注意到当我挖掘一些 pdf 文档时我得到的高频词是 phi taeoe toe sigma gamma 等它与某些 pdf 文档配合良好但与其他文档配合使用时却得到这
使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

我有一个 Pandas 数据框它有两列一列进程参数列包含字符串另一列值列包含相应的浮点值我需要过滤出部分匹配列过程参数中的一组键的子数据帧并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce
在 Rcpp 中使用其他包中的 C 函数

我试图从 C 函数中的 cubature 包调用 C 例程来执行多维积分我试图重现的基本 R 示例是 library cubature integrand lt function x sin x adaptIntegrate integr
如何在 R 或 Python 中制作旭日图？

到目前为止我一直无法找到一个可以创建旭日图的 R 库约翰斯塔斯科 http www cc gatech edu gvu ii sunburst 有人知道如何在 R 或 Python 中实现这一点吗在极坐标投影中使用 matplotli
跨行对 Pandas 数据框进行分组 - 2.0

进一步这个问题跨行对 Pandas 数据框进行分组 https stackoverflow com questions 46995997 grouping pandas dataframe across rows 操作是 amount cl
R 中用于调用 sed、rsync、ssh 等的 system() 的替代方案：函数是否存在，我应该编写自己的函数，还是我错过了重点？

最近我发现了base files命令与其他命令一起使用例如getwd write lines file show dir等等似乎有许多 bash 函数的 R 等价物我还在 R 中编写了一些函数来简化对ssh and rsync通过
read_html(url) 和 read_html(content(GET(url), "text")) 之间的区别

我正在看这个很棒的答案 https stackoverflow com a 58211397 3502164 https stackoverflow com a 58211397 3502164 解决方案的开头包括 library httr
如何在将两根柱子保持在一起的同时熔化柱子？

我有这种宽格式的数据我想将其转换为长格式 Cond Construct Line Plant Tube shoot weight shoot Tube root weight root 1 Standard NA NA 2 199 95
条件字体颜色 R Markdown

我无法找到一种方法来根据变量的值 gt 0 0 或 r setup include FALSE x lt 4 This is an R Markdown document r if x gt 0 textcolor red Markdown
闭包作为数据合并习惯的解决方案

我正在尝试解决闭包问题而且我think我发现了一个案例他们可能会有所帮助我有以下几部分需要处理一组正则表达式旨在清理状态名称位于函数中具有州名称上述函数创建的标准化形式和州 ID 代码的 data frame 用于链接两者
如何绘制具有显着性水平的箱线图？

前段时间问了一个关于绘制箱线图的问题Link1 https stackoverflow com questions 14604439 plot multiple boxplot in one graph 我有一些包含 3 个不同组或标签
无法更改 RStudio 中的 R 版本

我的 RStudio V 0 99 491 无法更改 R 版本我以平常的方式行事Global Options gt R Version 然后它挂起并且不再工作或反应 R 运行良好的初始版本是R 3 1 0 我以前从未遇到过这样的问题也许
识别 pandas 数据框中各组之间的差异

我有一个按日期和 ID 索引的 pandas 数据框我想识别日期之间增删的ID 将 ID 添加到另一个数据帧以及添加删除的日期 date ID value 12 31 2010 13 0 124409 9 0 555959 1 0 7

随机推荐

C++11 std::thread::detach 和访问共享数据

如果您之间有共享变量std thread和主线程或任何其他线程即使您执行thread detach 创建线程后立即调用方法是的调用后仍然可以访问全局变量捕获变量和传入变量detach http en cppreference co
获取给定元素的活动（正在运行）D3 v3 过渡的标准方法是什么？

D3 的抽象仍然让我心烦意乱所以希望我正确地表达了这一点 In D3 版本3 给定一个元素比如一个圆并且给定每个元素仅可能运行一个转换 http bost ocks org mike transition per element确定该
我们如何捕获 google Vertex AI 上的所有容器日志？

我在 AI 平台上有一个在线预测端点统一并且仅记录severity https cloud google com logging docs reference v2 rest v2 LogEntry logseverity gt 可以发
Android：向包裹写入异常？

我得到以下信息日志错误在我的应用程序代码中 07 14 20 17 15 026 E DatabaseUtils 814 Writing exception to parcel 07 14 20 17 15 026 E DatabaseUt
如何为基于用户输入以编程方式创建的按钮创建 IBAction

我正在创建一个小项目涉及创建基于 UIButton 的用户输入我知道如何以编程方式添加按钮但我不确定如何使按钮执行我希望它执行的操作我知道对于直接在故事板上创建的 UIButton 可以将 IBAction 链接到文件中来执行此操作
android-camera-server-died-and-camera-error-100

我有一个问题需要跟进Android 相机服务器死机且相机错误 100 https stackoverflow com questions 8647628 android camera server died and camera error
导入 .jsx 文件时找不到模块

我找不到解决办法我正在使用 Reactstrap CSS 框架 React Express 和 Webpack 我成功在index jsx上导入App jsx文件然后我尝试使用相同的方式在 App jsx 上导入 NavbarTemp
从自定义映像创建 Azure VM

我有一个存储在 Azure 中的映像我想从中启动多个虚拟机我创建了一个模板它将为我创建必要的资源除了创建虚拟机之外所有资源都成功使用 CreateOption FromImage 运行部署大约 40 分钟直到出现错误 VM v
将值快速插入 MySQL 数据库

问题解决了请往下看我是 Express 和 NodeJS 的新手放弃了 Laravel 和 PHP 我想做的是能够向 MySQL 数据库添加一条记录但我无法将这些点连接起来我正在关注本教程系列 http eddyjs com bo
如何在我的应用程序中使用必须返回多个记录才能显示某一字段的多个值（m:m 关系）的 SELECT 语句

我不知道你是否明白我的意思但我会尝试用一个例子来解释它用户表 UsedId UserName 1 Mike 2 Raul 拥有特权表 UsedId PrivilegeId 1 1 1 2 1 3 2 2 2 3 权限表 Privileg
在 Visual Studio 解决方案的多个项目中引用外部库的最佳方法

我们有一个受 VSS 源代码控制的 Visual Studio 2008 解决方案该解决方案包含许多类库其中许多需要引用不属于解决方案的程序集目前我们在每个项目中保留该程序集的单独副本但随着项目数量的增长将更新复制到外部程序集变
SQL 查询连接中的所有记录都匹配某个条件吗？

我有一个看似简单的问题但无法通过 SQL 找出正确的解决方案我专门使用postgresql 采取以下措施 SELECT FROM users INNER JOIN tags ON tags user id users id WHERE
带有登录表单的网页是否应该受到保护？

标题中的问题但我会详细说明假设我在非安全页面上有一个表单但我不希望用户发布到我的网络服务器的数据对任何可能拦截它的人有意义我需要吗serve安全或简单地填写表格post表单到安全 URL 通过不安全地提供表单您将允许中间人更改表单
使用客户端 api 在 ravendb 中选择many的解决方法

我有一个像这样的 ravendb 类 public class Student public string Id get set public string TopLevelProperty get set public Dictionar
Play Framework：无法加载 JNotify 本机库

在我的 Windows 10 计算机上启动 Play 项目时遇到问题在 Win 7 上运行良好当我执行 activator run 时我得到以下信息 Error loading library java library path C
删除表视图单元格并刷新视图控制器后刷新表视图

顺便说一句我需要快速的答案基本上我有两个问题需要刷新如果您认为代码太长而无法查看这就是我正在尝试做的一种是单击表格视图单元格之一上的删除按钮后刷新表格视图我尝试过刷新控制它不起作用也不是我想要的但拥有它们会很酷我的另一
F# 类型提供程序和数据处理

在上一个问题中使用静态类型语言处理异构数据 https stackoverflow com questions 1798920 working with heterogenous data in a statically typed la
我是否需要一个并发集合来通过多个线程将元素添加到列表中？

static final Collection
Azure Function App = 在本地运行单个 Azure Function 进行调试

在 Visual Studio 中我创建了一个具有多个函数的 Azure 函数应用程序当我从工具栏启动 Function App 调试器时所有函数都会被触发有没有办法从 Visual Studio 2017 中的应用程序触发单个函数
使用 dplyr 在 R 中使用 group_by 生成唯一/随机序列号

我想使用 R 生成按某些列分组的唯一数字序列或随机下面提供了一个示例数据集 fact code style item buyer 1206 23 LADIES TANK TOP 652 1206 23 LADIES TANK TOP 6

使用 dplyr 在 R 中使用 group_by 生成唯一/随机序列号

data

使用 dplyr 在 R 中使用 group_by 生成唯一/随机序列号 的相关文章

随机推荐

热门标签

使用 dplyr 在 R 中使用 group_by 生成唯一/随机序列号的相关文章