使用 dplyr 包中的 group_by 和 mutate 通过 id 变量创建新的因子变量

2024-01-24

我有一个长格式的分层数据框，其中每一行代表关系，其中许多关系可以属于一个人。以下是一个小型示例数据集的代码：

df <- data.frame(id = as.factor(c(1,1,1,2,2,3,4,4)),
             partner = c(1,2,3,1,2,1,1,2),
             kiss = as.factor(c("Yes", "No", "No", "No", "No", "Yes", "Yes", "No")))

  id partner kiss
1  1       1  Yes
2  1       2   No
3  1       3   No
4  2       1   No
5  2       2   No
6  3       1  Yes
7  4       1  Yes
8  4       2   No

我想在此数据集中创建一个新的因子变量，该变量指示该人（由“id 变量表示”）是否从未亲吻过他们的任何“伴侣”。换句话说，如果这个人与任何伴侣接吻，新变量将表示“是”——他们从未与任何伴侣接吻。我认为它应该是这样的：

  id partner kiss neverkiss
1  1       1  Yes        No
2  1       2   No        No
3  1       3   No        No
4  2       1   No       Yes
5  2       2   No       Yes
6  3       1  Yes        No
7  4       1  Yes        No
8  4       2   No        No

理想情况下，我想找到一种方法来创建此变量而不重塑数据集。我也更喜欢使用 dplyr 包。到目前为止，我已经考虑过使用此包中的 group_by 和 mutate 函数来创建此变量。但是，我不确定可以使用哪些辅助函数来创建特定变量。我对 dplyr 包之外的其他想法持开放态度，但这对我来说将是一等奖。

这应该可以做到

require(dplyr)

df <- data.frame(id = as.factor(c(1,1,1,2,2,3,4,4)),
             partner = c(1,2,3,1,2,1,1,2),
             kiss = as.factor(c("Yes", "No", "No", "No", "No", "Yes", "Yes", "No")))

df_new <- df %>% 
   group_by(id) %>% 
   mutate("neverkiss" = {if (any(kiss == "Yes")) "No" else "Yes"})

df_new

如果新列应包含您必须的因素ungroup first

df_new <- df %>% 
   group_by(id) %>% 
   mutate("neverkiss" = {if (any(kiss == "Yes")) "No" else "Yes"}) %>% 
   ungroup() %>% 
   mutate("neverkiss" = as.factor(neverkiss))

class(df_new$neverkiss)
[1] "factor"

原因是因素不能结合：

a <- as.factor(c("Yes", "Yes", "Yes"))
b <- as.factor(c("No", "No", "No")) 

c(a, b) # meaningless

由于分组仍处于活动状态mutate基本上是构建向量neverkiss作为每个向量的组合id（组），这会产生一个只有一个级别的向量（在本例中为“否”）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dplyr

使用 dplyr 包中的 group_by 和 mutate 通过 id 变量创建新的因子变量的相关文章

LaTex 中与 knit 和 xtable 交叉引用的问题

我目前正在与 R Studio 合作使用 LaTex 中的 R knitr 生成 PDF 文档在这些文档中我想在文本中引用的表格中展示我的部分结果我使用 R 中的 xtable 包生成这些表它运行良好并为我提供了正确的表到目前为
如何获得 STAN 中最大似然估计的标准误差？

我在 Stan 中使用最大似然优化但不幸的是optimizing 函数不报告标准错误 gt MLb4c lt optimizing get stanmodel fitb4c data win data init inits STAN OP
将循环转换为并行计算的函数

我正在使用 R 编程语言我遇到这个问题我试图找出两个 shapefile 之间的成对交集即第一个 shapefile 中的每个多边形与第二个 shapefile 中的所有多边形相交的百分比我想我找到了解决这个问题的基本方法 Load
替换列表列表中的元素

The applyR 中的函数是简化 for 循环以获得输出的好方法是否有一个等效的函数可以帮助人们在替换向量的值时避免 for 循环通过示例可以更好地理解这一点 Take this list for example x list li
decompose() 的周期太少[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 错误看起来像这样 decompose
R 根据事件更新值

我最近发布了这个问题该问题已经与我在笔记本电脑上本地使用的 Mysql 数据库相关由于我在 Mysql 中没有找到问题的解决方案其他人似乎也没有找到解决方案所以我想再次发布它但现在与 R 相关我使用带有 RMysql 包的数据库
如何在R中计算文本中的句子数？

我使用 R 将文本读入readChar 功能我的目的是测试文本句子中字母 a 出现次数与字母 b 出现次数一样多的假设我最近发现了 stringr 包它帮助我对文本做很多有用的事情例如计算字符数以及整个文本中每个字母出现的总数现在
R 中具有稳健回归的异常值

我正在使用lmrobR 中的函数使用robustbase用于稳健回归的库我会把它用作 rob reg lt lmrob y 0 dat method MM control a1 当我想返回我使用的摘要时summary rob reg 稳健
如何在R中删除重复项

我有一个非常大的数据集如下所示 df lt data frame school c a a a b b c c c year c 3 3 1 4 2 4 3 1 GPA c 4 4 4 3 3 3 2 2 school year GPA
将年月格式转换为 POSIXct [重复]

这个问题在这里已经有答案了我有一些年月形式的数据我想将其格式化以用于绘图ggplot date lt c 2016 03 2016 04 2016 05 2016 06 2016 07 2016 08 2016 09 2016 10 2
如何用外部图像填充地图边界？

我正在创建一张带有州边界的巴西地图这可以直接使用ggplot2 and geom sf 然而这一次我不想用数据填充每个状态的颜色而是想用外部图像 png 填充每个状态的边界类似于this https online olivet e
计算每个唯一值出现的次数

假设我有 v rep c 1 2 2 2 25 现在我想计算每个唯一值出现的次数 unique v 返回唯一值是什么但不返回它们的数量 gt unique v 1 1 2 我想要一些能给我的东西 length v v 1 1 25 le
纵向序列数据的三次样条方法？

我有一个串行数据格式如下 time milk Animal ID 30 25 6 1 31 27 2 1 32 24 4 1 33 17 4 1 34 33 6 1 35 25 4 1 33 29 4 2 34 25 4 2 35 24
使用 purrr 迭代替换数据帧列中的字符串

我想用purrr使用以下命令在数据框列上迭代运行多个字符串替换gsub 功能这是示例数据框 df lt data frame Year 2019 Text c rep a aa 5 rep a bb 3 rep a cc 2 gt df
kernlab 中 SVM 训练之外的核矩阵计算

我正在开发一种新算法该算法可以生成修改后的核矩阵以用于 SVM 训练但遇到了一个奇怪的问题出于测试目的我比较了使用 kernelMatrix 接口和普通内核接口学习的 SVM 模型例如 Model with kernelMatri
Dendextend：关于如何根据定义的组为树状图的标签着色

我正在尝试使用一个名为 dendextend 的很棒的 R 包来绘制树状图并根据一组先前定义的组为其分支和标签着色我已阅读您在 Stack Overflow 中的答案以及 dendextend vignette 的常见问题解答但我仍然不
将每列的值乘以 R 中另一个 data.frame 中的权重

我有两个data frames df and weights 代码如下 df看起来像这样 id a b d EE f 1 this 0 23421153 0 02324956 0 5457353 0 73068586 0 5642554 2
r 中训练和测试数据的最小最大缩放/归一化

我正在创建一个函数它将训练集和测试集作为其参数最小最大缩放标准化并返回训练集并使用这些same最小值和最小最大范围的值标准化并返回测试集到目前为止这是我想出的功能 min max scaling lt function tr
只读取选定的列

谁能告诉我如何仅读取下面每年数据的前 6 个月 7 列例如使用read table Year Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2009 41 27 25 31 31 39 2
将阴影区域添加到五分位数之间的直方图中

All 我有一个包含 2 个直方图的图表其中我还绘制了代表第 20 40 60 和 80 个百分位数的线条下面的代码使用虚拟数据重现了类似的图表 data lt rbind data frame x rnorm 1000 0 1 g o

随机推荐

我应该怎么做才能从 eclipse - Android 连接到服务器？

大师们我对这个话题有点迷失这是我正在尝试做的事情的细分用户 Android 设备将位置信息发送到服务器 gt 服务器 server 返回已使用 sql 排序的项目列表 gt db 服务器获取表信息并返回给用户 gt 用户 Andr
以编程方式配置 p2 更新存储库

Eclipse wiki 中有一篇文章如何通过向您的产品添加静态conf 文件来配置 RCP 应用程序的用户 p2 默认存储库 Equinox p2 向 RCP 应用程序添加自我更新配置用户的默认存储库 http wiki eclipse
Angular 2 单元测试 - @ViewChild 未定义

我正在编写 Angular 2 单元测试我有一个 ViewChild组件初始化后我需要识别的子组件在这种情况下它是一个Timepicker来自 ng2 bootstrap 库的组件尽管具体细节并不重要之后我detectChange
如何覆盖 Angular 5 中的组件？

我有一个组件
有没有办法从 Angular 2+ 中删除未使用的导入和声明？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案是否有一些 Visual Studio Code 插件或其他方法可以帮助我们快速有效地整理和组织导入和
NodeJs、Mocha 和 Mongoose

我有以下结构 server db mongooseTest js test userModel test js user userModel js 用他们的代码猫鼬测试 js var mongoose require mongoose m
解析 Javascript 中自定义格式的“日期和时间”字符串

我必须解析格式为 2015 01 16 22 15 00 的日期和时间字符串我想将其解析为 JavaScript 日期对象对此有什么帮助吗我尝试了一些jquery插件 moment js date js xdate js 还是没有运气
Grails 打包和命名约定

包装控制器服务等IE com company controllers com company services 这是一个好的做法还是应该避免我遇到的另一个值得一提的问题是命名服务示例 SomthingGatewayService gro
在 Android ContentProvider 中连接表和通知 ContentObservers 的最佳实践

我有一个 ContentProvider 来处理与我的应用程序相关的所有数据插入和检索我遵循 Virgil Doobjanschi 在 Google I O 上建议的模式我正在使用第一种模式我的问题是我有一个由数据库中的多个表表示的逻
动画结束后的 CSS 过渡

我有一个 css 过渡可以在悬停时移动元素还有一个动画可以在悬停时旋转元素动画上有一个等于过渡持续时间的延迟因此在过渡到正确位置后动画就会开始它工作得很好但是当我们将鼠标移开时动画会停止但不会向下过渡是否可以在鼠标移
从 TypeScript->CommonJS 模块导出带有字体资源的全局样式

我有一个 TypeScript React 项目组织如下 tsconfig json package json yarn lock lerna json node modules packages ui library package j
从 rfft2 数组创建 fft2 结果

我试图通过操作 rfft2 的结果来重新创建完整 fft2 的结果该文档指出 rfft2 仅计算正系数因为当输入为实数时负系数与正系数具有对称性这对于大型数组非常有用因为计算 rfft2 比完整的 fft2 快得多所以下面的代码
如何处理 MySQL 多边形重叠查询？

例如我有一个用户表每个用户都是地图上的一个正方形或圆圈我想找到这样的用户overlap地图上的另一个广场 MySQL 5 6 目前支持此功能吗 MySQL 的开发版本怎么样请注意我不是在寻找查找在该正方形内有一个点的用户我
小负数四舍五入后保持符号

即使舍入结果为零 MATLAB 似乎也会记住原始符号由于小负值已四舍五入为零因此该信号不再有意义代码示例 a 0 001 ar round a 2 fprintf a 2f a rounded 2f Zero 2f n a ar 0
将 MILOC 与 Fortran 结合使用：赋值中的等级 0 和 1 不兼容

给出错误消息的版本 program hello integer a 9 integer index note no dimension here a 1 3 4 5 6 7 8 9 10 index MINLOC a MASK a gt 5
如何知道动画为什么会卡顿？

我有一些相当简单的动画移动文本移动椭圆等并在全屏 1920x1080 减去任务栏下运行 WPF Performance Suite 报告整个动画的帧速率约为 50 FPS 脏矩形加法约为 300 矩形秒 SW 帧在 0 到 4 之
神经网络：连续输出变量的 Sigmoid 激活函数

好吧所以我正处于中间Andrew Ng 在 coursera 上的机器学习课程 https www coursera org course ml并希望调整作为作业 4 的一部分完成的神经网络特别是我在作业中正确完成的神经网络如下 S
谷歌地图根据窗口调整大小设置不同的缩放

继我之前的问题之后谷歌地图响应式调整大小 https stackoverflow com questions 18444161 google maps responsive resize我想根据窗口调整大小实现不同的缩放级别调整大小时因
在 perl 或 awk 中将每 4 列打印到一行

您能帮助我如何将每 4 个连续行转换为一个制表符分隔的列吗 convert A 1 2 3 3 3 4 1 to A 1 2 3 3 3 4 1 执行此操作的一个简单方法是使用xargs xargs n4 lt file A 1 2 3 3
使用 dplyr 包中的 group_by 和 mutate 通过 id 变量创建新的因子变量

我有一个长格式的分层数据框其中每一行代表关系其中许多关系可以属于一个人以下是一个小型示例数据集的代码 df lt data frame id as factor c 1 1 1 2 2 3 4 4 partner c 1 2 3 1

使用 dplyr 包中的 group_by 和 mutate 通过 id 变量创建新的因子变量

使用 dplyr 包中的 group_by 和 mutate 通过 id 变量创建新的因子变量 的相关文章

随机推荐

热门标签

使用 dplyr 包中的 group_by 和 mutate 通过 id 变量创建新的因子变量的相关文章