使用 dplyr 创建因子变量？

2024-01-02

假设我有一个看起来像这样的数据框：

df1=structure(list(Name = structure(1:6, .Label = c("N1", "N2", "N3", 
                                                    "N4", "N5", "N6", "N7"), class = "factor"), sector = structure(c(4L, 
                                                                                                                     4L, 4L, 3L, 3L, 2L), .Label = c("other stuff", "Private for-profit, 4-year or above", 
                                                                                                                                                     "Private not-for-profit, 4-year or above", "Public, 4-year or above"
                                                                                                                     ), class = "factor"), flagship = c(1, 0, 0, 0, 0, 0)), .Names = c("Name", 
                                                                                                                                                                                       "sector", "flagship"), row.names = c(NA, 6L), class = "data.frame")

我想创建一个新的因子变量“Sector”。我可以用很多行代码来完成它，但我确信有一种更有效的方法。

现在这就是我正在做的事情：

df1$PublicFlag=0
df1$PublicFlag[df1$sector=="Public, 4-year or above" & df1$flagship==1]=1
df1$Public=0
df1$Public[df1$sector=="Public, 4-year or above" & df1$flagship==0]=1
df1$PrivateNP=0
df1$PrivateNP[df1$sector=="Private not-for-profit"]=1
df1$Private4P=0
df1$Private4P[df1$sector=="Private for-profit, 4-year or above"]=1

library(reshape)
df2 = melt(df1, id=c("Name", "sector", "flagship"))
df2 = df2[df2$value==1,c("Name", "sector", "flagship", "variable")]
library(plyr)
df2 = rename(df2, c("variable"="Sector"))

谢谢您的帮助！

这是一篇老帖子，但我经常偶然发现它。这就是为什么我想给出一个最新的答案。dplyr 0.5.0 版本 https://blog.rstudio.com/2016/06/27/dplyr-0-5-0/引入了很多有用的向量函数来解决这个问题。

使用 case_when() 避免 ifelse 嵌套（从而让很多很多小猫活下来）：

df1 %>% 
  mutate(Sector = case_when(
        sector=="Public, 4-year or above" & flagship==1 ~ "PublicFlag",
        sector=="Public, 4-year or above" & flagship==0 ~ "Public",
        sector=="Private not-for-profit" ~ "PrivateNP",
        sector=="Private for-profit, 4-year or above" ~ "Private4P"),
    Sector = factor(Sector, levels=c("Public","PublicFlag","PrivateNP","Private4P"))
  )

使用 recode_factor() 从字符（或数字）变量生成因子：

df1 %>%
    mutate(Sector = recode_factor(sector,
                               "Public, 4-year or above" = "Public",
                               "Private not-for-profit" = "PrivateNP",
                               "Private for-profit, 4-year or above" = "Private4P"))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dplyr

使用 dplyr 创建因子变量？的相关文章

从网络源获取 R 中的数据作为数据框

我正在尝试使用 RCurl 包将一些空气污染背景数据作为 data frame 直接加载到 R 中该网站有 3 个下拉框用于在下载 csv 文件之前选择选项如下图所示我试图从下拉框中选择 3 个值并使用下载 CSV 按钮将数据作
将summary()写入as.data.frame以在ggplot / R中使用

请查找 af 数据样本t below 我正在使用以下方法进行竞争风险分析etmCIF来自etm package 产生以下结果这很好但需要更好的图形曾经有一个ggtrans etm函数将数据导入ggplot 然而这个功能显然被删除了
R 中的 NA 替换函数

我正在尝试替换矩阵中的 NA mat 零我在用着mat is na mat lt 0 当我有 18946 个变量的 94531 个观察值或更小的矩阵时效果很好但我在 22752 个变量的 112039 个观察值的矩阵上尝试它 R 显示
用于清除工作空间和转储存储的 R 全局函数

我希望创建一个全局函数来清除我的工作区并转储我的内存我将我的函数称为 cleaner 并希望它执行以下代码 remove list ls gc 我尝试在全局环境中创建该函数但是当我运行它时控制台仅打印该函数的文本在我要获取的函数文件
将 JSON URL 转换为 R 数据帧

我在将 JSON 文件从 API 转换为 R 中的数据帧时遇到问题例如 URL 我尝试了 S O 的一些不同建议包括将json数据转换为R中的数据框 https stackoverflow com questions 28683769
R-了解 akima::interp 结果中的 NA 值

我有以下数据框 ref dat k Intensity Slope 1 0 021467214 33 16 2 0 012444759 33 8 3 0 006079156 33 4 4 0 003792025 33 2 5 0 02276
如何更新条件公式？

让我直接进入示例考虑以下等式 frml lt formula y a b x z 使用这样的公式规范例如和AER ivreg 我想更新这个公式使其显示为 frml2 lt y a b c x z w 但是我不确定如何更新条件标志之前
使用 dplyr:group_by 将数据帧分成多个子集？

有没有办法根据 group by 组使用 dplyr 将一个数据帧拆分为数据帧的子集 mtcars gt group by cyl gear gt codes 非常感谢好吧并不是你真的想要但你可以这样做tidyr 即nearly一样的
限制数据框中所有单元格的字符串长度？

您好有没有一种方法可以限制 data frame 中所有列的字符串文本大小而不必循环遍历每一列并一次使用 str trunc 之类的东西例如下面的数据框我可以将所有文本大小限制为仅 5 个字符而不必一次只执行一列吗如果有 50
如何获得属于五分位数的x？

我正在大学学习使用 R 进行计量经济学项目所以请原谅我的笨拙基本上使用并给出一个矩阵股票价格行天列公司股票价格另一个矩阵市值行天列公司市值我必须收集第三个矩阵每天观察的属于市值分布第一五分位数的股票价格然后
R.matlab/readMat：readTag(this) 中出错

我正在尝试使用 R matlab 将 matlab 文件读入 R 但遇到此错误 require R matlab r lt readMat file mat verbose T Trying to read MAT v5 file stre
从 R 中的 HTTPS 连接逐行读取

当创建连接时open r 它允许逐行读取这对于批量处理大数据流非常有用例如这个脚本 https gist github com jeroenooms d33a24958d99bb969ac0通过一次读取 100 行来解析相当大的 gzi
根据另一列中的键累积一列中的值时出现问题

我有一个看起来像这样的数据框我需要使用 PROJ ID 列中的字符串创建一个新的值列并形成 PROJ NAME 列中的值字符串这里提供的解决方案根据 r 中另一列的键累积一列中的值 https stackoverflow com q
解析，用三点参数替换

让我们考虑一个典型的deparse substitute R call f1 lt function u x y print deparse substitute x varU vu varX vx varY vy f1 u varU x
比较 R 中的两个字符向量

我有两个 ID 字符向量我想比较这两个字符向量特别是我对以下数字感兴趣 A和B各有多少个ID 有多少个ID在A中但不在B中有多少个ID在B但不在A 我还想画维恩图以下是一些可以尝试的基础知识 gt A c Dog Cat Mouse
r 中的 5 维图

我正在尝试在 R 中绘制 5 维图我目前正在使用rgl包以 4 个维度绘制数据使用 3 个变量作为 x y z 坐标另一个变量作为颜色我想知道是否可以使用这个包添加第五个变量例如空间中点的大小或形状这是我的数据和当前代码的示例
有没有一种简单的方法来判断存储在一个列表中的许多数据帧是否包含相同的列？

我有一个包含许多数据框的列表 df1 lt data frame A 1 5 B 2 6 C LETTERS 1 5 df2 lt data frame A 1 5 B 2 6 C LETTERS 1 5 df3 lt data frame
如何在R中同时对三个字段进行网络分析

如何在 R 中同时对三个字段进行网络分析下面是示例数据以及desired output在最后一栏中 df lt data frame stringsAsFactors FALSE id 1 c ABC ABC BCD CDE DEF EF
为什么 geom_boxplot 比基本箱线图识别更多异常值？

这是一个可重复的示例与基本箱线图相比最后一个治疗组又发现了一个异常值 dta lt structure list Treatment c A A A A A A A A A A A A A A A A B B B B B B B B B
使用predictNLS围绕R中的拟合值创建置信区间？

我想使用 R 中 propogate 包中的 PredictNLS 围绕一大组拟合值构建置信区间作为示例我将使用它们在函数描述中引用的数据集 https rdrr io github anspiess propagate man pre

随机推荐

如何让 ZK webfragment 与嵌入式 Jetty 9 一起工作？

这个最小的嵌入式 Jetty 项目可以正确启动扫描注释并查找并映射带注释的 TestServlet 项目结构 src main java test Test java webapp test zul pom xml 测试 java pac
为什么 IIS 不支持分块传输编码？

我正在与 IIS Web 服务器建立 HTTP 连接并使用使用 Transfer Encoding chunked 编码的数据发送 POST 请求当我这样做时 IIS 只是关闭连接没有错误消息或状态代码根据HTTP 1 1 规范 h
当应用程序部署到 JBoss 时显示一条消息

当我通过 JBoss AS 7 1 1 部署应用程序时如何显示消息来提醒用户我正在使用的技术四郎1 2 3 莫贾拉2 1 7 PrimeFaces 5 1 JDK 1 7 JBoss 7 1 1 在 JBoss AS 前面放置一个准系
java中什么时候应该使用finalize()方法？

我们什么时候应该真正使用java中的finalize 方法如果我们想在finalize 方法中关闭连接那么最好使用下面的代码因为等待GC调用finalize 方法然后释放连接是没有意义的 try Connection creation
GWT 设计器不适用于 Maven-GWT 项目

我刚刚启动了一个 GWT 项目环境如下日食赫利俄斯 Eclipse 3 6 的谷歌插件 eclipse 的 maven2 插件 Eclipse 3 6 的 Gwt 设计器该项目是由 gwt maven plugin 创建的该项目可以
如何在Android中为长度不超过屏幕尺寸的较小文本创建跑马灯效果？

我一直试图在我的应用程序中为 HELLO 一词提供选框效果但 Android 不允许这样做除非文本的长度超过屏幕尺寸有解决办法吗 PS 这看起来很简单我还没有得到任何解决方案我使用了我在早期 Android 时代开发的简单的轻量级
我可以为我的 RDS 实例使用 Amazon ELB 来实现负载均衡吗？

我有两个问题我可以在 RDS 实例上使用 ELB 来实现负载均衡吗我可以在 EC2 实例上安装多个服务器并为所有服务器运行单个 ELB 实例吗 1 如果您的意思是只有一个 RDS 实例那么在它前面的负载均衡请求就没有意义如果您的意思
django mysql 强制使用索引

我正在使用 django orm 和 mysql 由于某种原因 mysql 使用了错误的索引我想手动覆盖使用的索引我看到 django 团队出于跨平台原因决定阻止使用 with hints 扩展来强制建立索引有没有人有任何解决方案建
在 ggplot 上显示两个平行轴 (R)

假设我们有以下类型的简单情节 library ggplot2 df data frame y c 0 1 1 2 3 3 1 2 9 5 8 6 7 4 8 2 9 1 x seq 1 100 length out 10 ggplot df
Java 中的复选框列表？ [复制]

这个问题在这里已经有答案了我正在设计一个用户界面我想让用户可以选择为特定课程选择一名或多名培训师有没有这样的事情Checkboxlist在Java中我正在使用 Netbeans 您推荐什么作为最佳 UI 解决方案发现这个 http
Django 邮递员不工作

我尝试实施Django postman用于用户到用户的消息传递系统我克隆了存储库并在我的settings py and URLs py文件也 In URLs py我包含的主文件 re path r messages include pos
selenium.common.exceptions.InvalidArgumentException：消息：使用 Selenium Python 从文本文件读取的 url 调用 get() 时出现无效参数错误

我在 txt 文件中有一个 URL 列表我想使用 selenium 运行它假设文件名为 b txt 其中包含 2 个 url 格式如下 https www google com https www bing com https www
使用 Roslyn 查找所有不继承 C# 类并更改为从基础对象继承（类似 java）

我正在开发一个小型 Roslyn 项目其中包括更改解析树并将更改写回文件我从独立的代码分析器开始希望将其构建为命令行应用程序不过我遇到了挑战与以下人员合作使用 Roslyn 查找从特定基类派生的类 https stackove
我必须将 Pandas DataFrame 的每一行的数据与其余行的数据进行比较，有没有办法加快计算速度？

假设我有一个具有以下结构的 pandas DataFrame 从 csv 文件加载 var 和 err 列的数量不固定并且因文件而异 var 0 var 1 var 2 32 9 41 47 22 41 15 12 32 3 4 4 10
如何在 VB6 中复制打开的文件？ [复制]

这个问题在这里已经有答案了使用VB6 当文件被其他人打开时如何将文件从另一台计算机复制到我的计算机如果尝试对当前打开的文件使用 FileCopy 语句则会发生错误但是 FileSystemObject 的 CopyFile 函数没
oct2py 没有看到 OCTAVE_EXECUTABLE 环境变量 (Windows)

所以我尝试在 Windows 上使用 oct2py 如下所示 from oct2py import octave 这实际上是我重现错误所需的唯一代码当我执行这个时我得到OSError Octave Executable not fou
识别人名与字典单词

有什么方法可以识别一个单词可能是不可能是一个人的名字吗因此如果我看到 understanding 这个词我会得到 0 01 的概率而 Johnson 这个词会返回 0 99 的概率而像 Smith 这样的词会返回 0 75 而像
关闭当前用户控件

我有一个 Window1 xaml 主窗口在某些事件之后我显示一个 UserControl EditFile xaml 背后的代码是 public static int whichSelected 1 private void butt
Fastcgi++：如何创建 404 或 503 响应

Fastcgi 是一个用于简化用 C 实现 fastcgi 服务器的库这是我想要做的非常简单的用例检查文件是否存在如果不存在则生成一些错误消息这是代码寻找问号 struct the fastcgi server t Fastcg
使用 dplyr 创建因子变量？

假设我有一个看起来像这样的数据框 df1 structure list Name structure 1 6 Label c N1 N2 N3 N4 N5 N6 N7 class factor sector structure c 4L 4

使用 dplyr 创建因子变量？

使用 dplyr 创建因子变量？ 的相关文章

随机推荐

热门标签

使用 dplyr 创建因子变量？的相关文章