高效的崩溃虚拟变量

2023-11-25

将虚拟变量折叠回因子的有效方法是什么（欢迎任何解决方案，包括非基础包）。

   race.White race.Hispanic race.Black race.Asian
1           1             0          0          0
2           0             0          0          1
3           1             0          0          0
4           0             0          1          0
5           0             0          0          1
6           0             1          0          0
7           1             0          0          0
8           1             0          0          0
9           1             0          0          0
10          0             0          1          0

期望的输出：

       race
1     White
2     Asian
3     White
4     Black
5     Asian
6  Hispanic
7     White
8     White
9     White
10    Black

Data:

dat <- structure(list(race.White = c(1L, 0L, 1L, 0L, 0L, 0L, 1L, 1L, 
1L, 0L), race.Hispanic = c(0L, 0L, 0L, 0L, 0L, 1L, 0L, 0L, 0L, 
0L), race.Black = c(0L, 0L, 0L, 1L, 0L, 0L, 0L, 0L, 0L, 1L), 
    race.Asian = c(0L, 1L, 0L, 0L, 1L, 0L, 0L, 0L, 0L, 0L)), .Names = c("race.White", 
"race.Hispanic", "race.Black", "race.Asian"), row.names = c(NA, 
-10L), class = "data.frame")

我尝试过的：

这是一个可能的解决方案，但我确信有更好的 indexing/dplyr/data.table/.etc 解决方案。

apply(dat, 1, function(x) sub("[^.]+\\.", "", colnames(dat))[x])

我们可以用max.col要获取列索引，请根据该索引对列名称进行子集化并使用sub删除前缀。

sub('[^.]+\\.', '', names(dat)[max.col(dat)])
#[1] "White"    "Asian"    "White"    "Black"    "Asian"    "Hispanic"
#[7] "White"    "White"    "White"    "Black"

在这里，我假设有一个1每行。如果有多个1，我们可以使用该选项ties.method='first' or ties.method='last'.

或者另一种选择是做%*%根据列的顺序，对列名称进行子集化，并删除前缀sub.

 sub('[^.]+\\.', '', names(dat)[(as.matrix(dat) %*%seq_along(dat))[,1]])

或者我们可以使用pmax

sub('[^.]+\\.', '', names(dat)[do.call(pmax,dat*seq_along(dat)[col(dat)])])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

高效的崩溃虚拟变量的相关文章

计算一列中正数和负数的数量

我想计算数据帧的一列中正值和负值的数量我在 R 中该怎么做例如这里是数据框 logFC logCPM LR PValue FDR Bra15066 5 630822 5 184586 73 79927 8 647868e 18 4 0
替换列表列表中的元素

The applyR 中的函数是简化 for 循环以获得输出的好方法是否有一个等效的函数可以帮助人们在替换向量的值时避免 for 循环通过示例可以更好地理解这一点 Take this list for example x list li
decompose() 的周期太少[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 错误看起来像这样 decompose
R 根据事件更新值

我最近发布了这个问题该问题已经与我在笔记本电脑上本地使用的 Mysql 数据库相关由于我在 Mysql 中没有找到问题的解决方案其他人似乎也没有找到解决方案所以我想再次发布它但现在与 R 相关我使用带有 RMysql 包的数据库
从 R 中的向量中选择所有可能的元组

我正在尝试用 R 编写一个程序当给定一个向量时将返回所有可能的tuples http en wikipedia org wiki Tuples该向量中的元素例如元组 c a b c c a b c 出租车 c a c c b c c
将命名参数列表传递给函数？

我想编写一个小函数来从适当的分布生成样本例如 makeSample lt function n dist params values lt makeSample 100 unif list min 0 max 10 values lt m
R::bigmemory - 如何创建角色big.matrix？

我尝试使用bigmemory封装在R我一开始就陷入困境我愿意 temp lt matrix paste a 1 10 5 2 并得到一个字符矩阵没关系但后来我尝试 x lt as big matrix temp type char 我
如何在 ggplot 中保持配色方案，同时删除每个图中未使用的级别？

我想比较一个图中的数据的一些子组和另一图中的一些其他子组如果我绘制一个图其中绘制了所有子组那么这个数字将是巨大的并且每个单独的比较都会变得困难我认为如果给定的子组在所有图中都具有相同的颜色这对读者来说会更有意义这是我尝试过的两
是否可以通过扫描从控制台读取而不回显字符？

这是一个示例函数 passwordEntry lt function cat Enter your password pwd lt scan n 1 what character quiet TRUE invisible pwd 并测试该功
如何在for循环中引用变量？

我正在循环访问不同的 data tables 和 data table 中的变量但我在引用内部变量时遇到问题for loop dt1 lt data table a1 c 1 2 3 a2 c 4 5 2 dt2 lt data tabl
删除ggplot2中的负图区域[重复]

这个问题在这里已经有答案了如何删除 ggplot2 中 x 轴和 y 轴下方的绘图区域请参见下面的示例我尝试了几个主题元素 panel border panel margin plot margin 但没有任何运气 p lt ggpl
计算每个唯一值出现的次数

假设我有 v rep c 1 2 2 2 25 现在我想计算每个唯一值出现的次数 unique v 返回唯一值是什么但不返回它们的数量 gt unique v 1 1 2 我想要一些能给我的东西 length v v 1 1 25 le
Dendextend：关于如何根据定义的组为树状图的标签着色

我正在尝试使用一个名为 dendextend 的很棒的 R 包来绘制树状图并根据一组先前定义的组为其分支和标签着色我已阅读您在 Stack Overflow 中的答案以及 dendextend vignette 的常见问题解答但我仍然不
R独特的列或行与NA无可比拟

有谁知道如果incomparables的论证unique or duplicated 曾经被实施过incomparables FALSE 也许我不明白它应该如何工作无论如何我正在寻找一个巧妙的解决方案以仅保留与另一列相同的唯一列或行
API 请求和curl::curl_fetch_memory(url, handle = handle) 中的错误：SSL 证书问题：证书已过期

几天前我运行了代码几个月没有任何问题 GET url myurl query 今天我遇到一个错误 Error in curl curl fetch memory url handle handle SSL certificate pro
使用 R 选择第一个非 NA 值

df lt data frame ID c 1 1 1 2 3 3 3 test c NA 5 5 6 4 NA 7 3 NA 10 9 我想创建一个名为 value 的变量它是每个单独 ID 测试的第一个非 NA 值对于只有NA的个体
ddply 和aggregate 之间的区别

有人可以通过以下示例帮助我了解聚合和 ddply 之间的区别数据框 mydat lt data frame first rpois 10 10 second rpois 10 10 third rpois 10 10 group c re
基于时间窗口的不规则时间序列的优化滚动函数

有没有办法使用 rollapply 来自zoo包或类似的东西优化功能 rollmean rollmedian等使用基于时间的窗口计算滚动函数而不是基于大量观察的函数我想要的很简单对于不规则时间序列中的每个元素我想计算一个具有 N
更改闪亮 R 中的默认浏览器

我在 RStudio 中使用 01 hello 虽然在 IE 中默认打开程序时它不会显示直方图但即使在 Chrome 中滑块也不起作用我无法滑动条形图并看到直方图中的变化如何更改 R 中的默认浏览器以便闪亮启动 Chrome 而不
文本挖掘 pdf 文件/词频问题

我正在尝试挖掘一篇具有丰富 pdf 编码和图表的文章的 pdf 我注意到当我挖掘一些 pdf 文档时我得到的高频词是 phi taeoe toe sigma gamma 等它与某些 pdf 文档配合良好但与其他文档配合使用时却得到这

高效的崩溃虚拟变量

高效的崩溃虚拟变量 的相关文章

随机推荐

热门标签

高效的崩溃虚拟变量的相关文章