使用 dplyr tidyr 保留汇总表中输入变量和因子水平的顺序

2023-11-24

我喜欢多么简单dplyr and tidyr已经成功创建一个包含多个预测变量和结果变量的汇总表。让我困惑的一件事是在输出表中保留/定义预测变量的顺序及其因子水平的最后一步。

我想出了一种解决方案（如下），其中涉及使用mutate手动创建一个因子变量，将预测变量和预测变量值（例如“gender_female”）与所需输出顺序的级别结合起来。但是如果变量很多的话我的解决方案就有点啰嗦了，不知道有没有更好的办法呢？

library(dplyr)
library(tidyr)
levels_eth <- c("Maori", "Pacific", "Asian", "Other", "European", "Unknown")
levels_gnd <- c("Female", "Male", "Unknown")

set.seed(1234)

dat <- data.frame(
  gender    = factor(sample(levels_gnd, 100, replace = TRUE), levels = levels_gnd),
  ethnicity = factor(sample(levels_eth, 100, replace = TRUE), levels = levels_eth),
  outcome1  = sample(c(TRUE, FALSE), 100, replace = TRUE),
  outcome2  = sample(c(TRUE, FALSE), 100, replace = TRUE)
)

dat %>% 
  gather(key = outcome, value = outcome_value, contains("outcome")) %>%
  gather(key = predictor, value = pred_value, gender, ethnicity) %>%
  # Statement below creates variable for ordering output
  mutate(
    pred_ord = factor(interaction(predictor, addNA(pred_value), sep = "_"),
                      levels = c(paste("gender", levels(addNA(dat$gender)), sep = "_"),
                                 paste("ethnicity", levels(addNA(dat$ethnicity)), sep = "_")))
  ) %>%
  group_by(pred_ord, outcome) %>%
  summarise(n = sum(outcome_value, na.rm = TRUE)) %>%
  ungroup() %>%
  spread(key = outcome, value = n) %>%
  separate(pred_ord, c("Predictor", "Pred_value"))

Source: local data frame [9 x 4]

  Predictor Pred_value outcome1 outcome2
      (chr)      (chr)    (int)    (int)
1    gender     Female       25       27
2    gender       Male       11       10
3    gender    Unknown       12       15
4 ethnicity      Maori       10        9
5 ethnicity    Pacific        7        7
6 ethnicity      Asian        6       12
7 ethnicity      Other       10        9
8 ethnicity   European        5        4
9 ethnicity    Unknown       10       11
Warning message:
attributes are not identical across measure variables; they will be dropped

上表是正确的，因为预测器和预测器值都不是按字母顺序排列的。

EDIT

根据要求，这就是使用默认排序（按字母顺序）时生成的结果。这是有道理的，因为当这些因素组合在一起时，它们会转换为字符变量，并且所有属性都会被删除。

dat %>% 
  gather(key = outcome, value = outcome_value, contains("outcome")) %>%
  gather(key = predictor, value = pred_value, gender, ethnicity) %>%
  group_by(predictor, pred_value, outcome) %>%
  summarise(n = sum(outcome_value, na.rm = TRUE)) %>%
  spread(key = outcome, value = n)

Source: local data frame [9 x 4]

  predictor pred_value outcome1 outcome2
      (chr)      (chr)    (int)    (int)
1 ethnicity      Asian        6       12
2 ethnicity   European        5        4
3 ethnicity      Maori       10        9
4 ethnicity      Other       10        9
5 ethnicity    Pacific        7        7
6 ethnicity    Unknown       10       11
7    gender     Female       25       27
8    gender       Male       11       10
9    gender    Unknown       12       15
Warning message:
attributes are not identical across measure variables; they will be dropped

如果您希望数据成为这样排列的因子，则需要将它们转换回因子，如下所示gather强制性格（它警告你）。您可以使用gather's factor_key要照顾的参数predictor，但是你需要组装关卡pred_value因为它现在结合了原来的两个因素。稍微简化一下：

library(tidyr)
library(dplyr)

dat %>% 
    gather(key = predictor, value = pred_value, gender, ethnicity, factor_key = TRUE) %>%
    group_by(predictor, pred_value) %>% 
    summarise_all(sum) %>%
    ungroup() %>% 
    mutate(pred_value = factor(pred_value, levels = unique(c(levels_eth, levels_gnd), 
                                                           fromLast = TRUE))) %>% 
    arrange(predictor, pred_value)

## # A tibble: 9 × 4
##   predictor pred_value outcome1 outcome2
##      <fctr>     <fctr>    <int>    <int>
## 1    gender     Female       25       27
## 2    gender       Male       11       10
## 3    gender    Unknown       12       15
## 4 ethnicity      Maori       10        9
## 5 ethnicity    Pacific        7        7
## 6 ethnicity      Asian        6       12
## 7 ethnicity      Other       10        9
## 8 ethnicity   European        5        4
## 9 ethnicity    Unknown       10       11

请注意，您需要使用unique with fromLast = TRUE将重复的“未知”值排列到正确位置的单个出现中；union会提前放的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 dplyr tidyr 保留汇总表中输入变量和因子水平的顺序的相关文章

par(mfrow=c(1,2)) 不显示并排密度图[重复]

这个问题在这里已经有答案了 par mfrow c 1 2 plot 1 12 log y plot 1 2 xaxs i 然而当我尝试做并排密度图时图会单独输出 load the stud recs dataset library U
将循环转换为并行计算的函数

我正在使用 R 编程语言我遇到这个问题我试图找出两个 shapefile 之间的成对交集即第一个 shapefile 中的每个多边形与第二个 shapefile 中的所有多边形相交的百分比我想我找到了解决这个问题的基本方法 Load
R 根据事件更新值

我最近发布了这个问题该问题已经与我在笔记本电脑上本地使用的 Mysql 数据库相关由于我在 Mysql 中没有找到问题的解决方案其他人似乎也没有找到解决方案所以我想再次发布它但现在与 R 相关我使用带有 RMysql 包的数据库
将命名参数列表传递给函数？

我想编写一个小函数来从适当的分布生成样本例如 makeSample lt function n dist params values lt makeSample 100 unif list min 0 max 10 values lt m
基于另一个数据集获取数据集的子集

假设我有一个数据集即 dat1 ID block plot SPID TotHeight 1 1 1 4 44 5 2 1 1 4 51 3 1 1 4 28 7 4 1 1 4 24 5 5 1 1 4 27 3 6 1 1 4 20
如何对同一列上的数据帧列表中的所有数据帧进行排序？

我有一个数据框列表dataframes list 举个例子我把dput dataframes list 在底部我想对列列表中的所有数据框进行排序enrichment 我可以对一个数据框进行排序 first dataframe lt da
.wav 文件长度/持续时间，无需读入文件

有没有办法提取有关 wav 文件长度持续时间的信息而无需在 R 中读取文件我有数千个这样的文件如果我必须阅读每个文件才能找到其持续时间那将需要很长时间 Windows 文件资源管理器为您提供了打开长度字段的选项并且您可以查看
LDA with topicmodels，如何查看不同文档属于哪些主题？

我正在使用 topicmodels 包中的 LDA 我已经在大约 30 000 个文档上运行它获取了 30 个主题并获得了主题的前 10 个单词它们看起来非常好但我想看看哪些文档属于哪个主题的概率最高我该怎么做 myCorpus
在 R 中创建一个运行计数变量？

我有一个足球比赛结果的数据集我希望通过创建一组类似于世界足球 Elo 公式的运行评级来学习 R 我遇到了麻烦在 Excel 中看似简单的事情在 R 中并不完全直观例如 4270 个观察中的前 15 个具有必要的变量 date t 1
计算每个唯一值出现的次数

假设我有 v rep c 1 2 2 2 25 现在我想计算每个唯一值出现的次数 unique v 返回唯一值是什么但不返回它们的数量 gt unique v 1 1 2 我想要一些能给我的东西 length v v 1 1 25 le
在shiny中过滤传单地图数据

我在用传单地图设置这个闪亮的东西时遇到了麻烦我的原帖 https stackoverflow com questions 50111566 applying leaflet map bounds to filter data within
R foreach问题（某些进程返回NULL）

我遇到了问题foreach我正在 R 中使用的程序的一部分该程序用于运行不同参数的模拟然后将结果返回到单个列表然后用于生成报告当并非所有分配的模拟运行都在报告上实际可见时就会出现问题从各方面来看似乎只有分配的运行的一个子集实际
我无法下载 R 中的 reshape2 包 [关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我在尝试安装 R 包时收到此响应 gt installed packages reshape2 Package LibPath V
R - Plm 和 lm - 固定效应

我有一个平衡面板数据集 df 本质上由三个变量组成 A B and Y 对于一堆独特识别的区域来说它会随着时间的推移而变化我想运行一个回归其中包括区域下面等式中的区域和时间年份固定效应如果我没记错的话我可以通过不同的方式来
绘制点之间的所有线

我有以下 R 代码 x lt c 0 01848598 0 08052353 0 06741172 0 11652034 y lt c 0 4177541 0 4042247 0 3964025 0 4074685 d lt data fr
尝试读取 CSV 文件时出现“无法识别的字符串转义”

我正在尝试导入一个 csv文件以便我可以观看此视频 R ggplot2 图形直方图 http www youtube com watch v 47kWynt3b6M 我安装了所有正确的软件包包括ggplot以及相关的包视频中的第一个说
从命令行运行 R 代码 (Windows)

我在名为 analysis r 的文件中有一些 R 代码我希望能够从命令行 CMD 运行该文件中的代码而无需通过 R 终端并且我还希望能够传递参数并在我的代码中使用这些参数例如就像下面的伪代码 C gt execute r scri
Purrr::map_df() 删除 NULL 行

使用时purrr map df 我偶尔会传递一个数据框列表其中一些项目是NULL 当我做 map df 返回行数少于原始列表的数据框我想发生的事情是这样的map df calls dplyr bind rows 它忽略了NULL价值观
只读取选定的列

谁能告诉我如何仅读取下面每年数据的前 6 个月 7 列例如使用read table Year Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2009 41 27 25 31 31 39 2
旋转 Markdown 的表格 pdf 输出

我想将 pdf 上的表格输出旋转 90 度我正在使用 Markdown 生成报告并kable循环显示表格如果可以的话我想继续使用kable因为还有很多其他依赖于它的东西我没有包含在这个 MWE 中这是一个简单的例子使用iris数据集

随机推荐

确保 Linux 中应用程序的单个实例

我正在 WxPython 中开发 GUI 应用程序我不确定如何确保在任何给定时间机器上只有应用程序的一个副本正在运行由于应用程序的性质多次运行没有任何意义并且很快就会失败在 Win32 下我可以简单地创建一个命名互斥体并在启动时
VS 2017 通过文件路径引用本地项目（就像在 VS 2015 中使用 global.json 一样）

在 VS 2015 中我们曾经能够在 global json 中指定本地路径如下所示 projects src test C path to other projects 然后它将将该路径中的所有项目添加到当前解决方案中使我们能够轻
如何在 capistrano 中使用 --trace 运行 rake？

我希望 capistrano 使用 trace 调用 rake 这样我就可以找出它失败的原因我该怎么做呢 set rake rake trace 不起作用我发现的最好的方法是 set rake rake trace 这样你就不会覆盖ra
React JS 按升序和降序排序

我一直在使用sortBy from lodash 但继续得到 src components Product js Syntax error Unexpected token 17 29 15 sortByPrice 16 this setS
PyTorch 和 CUDA 驱动程序

我安装了 CUDA 9 2 例如 base c gt nvcc version nvcc NVIDIA R Cuda compiler driver Copyright c 2005 2018 NVIDIA Corporation Buil
Boost.Graph如何合并两个顶点/契约边

如何在 Boost Graph 中合并两个顶点契约边我需要将边从顶点 A 移动到顶点 B 并删除顶点 A 有内置函数吗或者adjacency list可能有一些特殊的东西如果没有这样的功能那为什么呢我认为这是常见的图形操作 ED
JavaScript 中“let”和“var”之间是否存在性能差异

这两个关键字在范围方面的区别已经被彻底讨论过here 但我想知道两者之间是否存在任何性能差异如果有它是否可以忽略不计或者在什么时候会变得显着 After testing this on http jsperf com I got th
如何在Android中使用Base64对字符串进行编码？ [复制]

这个问题在这里已经有答案了可能的重复 Base64编码器和解码器我正在尝试使用 Base64 对 URL 进行编码有没有办法在java android中用Base64对其进行编码我需要类似于 PHP 中的 base64 encode
CodePipeline：CodeDeploy 报告“BundleType 必须是 YAML 或 JSON”

构建规范 yml version 0 2 phases build commands echo Build started on date echo Compiling the Python code python HelloWorld t
Sitecore - 使用非上下文数据源对演示组件中的数据进行索引

我有一个 Sitecore 网站其中许多页面主要由指向内容树中其他位置的数据源的各种子布局组装而成这是该问题的一个基本示例查看有关苹果的页面的人可能会看到苹果一词 10 次但是 Lucene 不会为该单词索引 Apple 页面项
TypeScript 导入/as 与导入/require？ [复制]

这个问题在这里已经有答案了我将 TypeScript 与 Express Node js 结合使用对于使用模块 TypeScript 手册显示了以下语法 import express require express 但也typescri
Node.js v0.10：替换文件中的某些字节而不读取整个文件

我正在制作一个文本编辑器为了编辑文件我确实需要某种方法来仅从文件中读取某些字节这是我使用的实现的fs createReadStream使用start and end选项我还需要替换文件中的某些字节我不知道如何做到这一点到目前为止
Phoenix/Elixir/Ejabberd - 响应已发送错误

我正在按照本指南将 Ejabberd 嵌入 Phoenix 应用程序 https blog process one net embedding ejabberd into an elixir phoenix web application
使用 AppleScript 获取完整目录内容

我需要将文件夹及其子文件夹的全部可见内容作为列表获取这可能吗看看这有多容易 tell application Finder set file list to entire contents of choose folder with
在构造函数中实例化对象

看来下面代码的结果是一样的那么什么时候应该分别使用呢 public class Person public Person this family new Family Family family to public class Perso
Agda 中的 Arity 通用编程

如何在 Agda 中编写 arity generic 函数是否可以编写完全依赖且全域多态的泛型函数我将以 n 元复合函数为例最简单的版本 open import Data Vec N ary comp n X Set Y Set Z
Java中如何检查用户输入是String、double还是long

我是java初学者我想首先检查用户输入是 String Double 还是 int 如果是 String double 或负数则应提示用户再次输入有效的 int 数只有当用户输入有效数字时程序才会跳转尝试我思考了好几个小时没有想
如何在VC++中从Resources加载文本文件？

我正在用 VC 编写 DLL 需要使用外部文本文件我现在有这样的事情 ifstream file string line file open C Users Me Desktop textfile txt getline file lin
为什么 Perl 和 /bin/sha1 给出不同的结果？

我很困惑为什么以下返回单独的 sHA1 perl MDigest SHA1 E say Digest SHA1 sha1 hex http i aultec com v 8066 Originals 1FTVX12585NA9832010
使用 dplyr tidyr 保留汇总表中输入变量和因子水平的顺序

我喜欢多么简单dplyr and tidyr已经成功创建一个包含多个预测变量和结果变量的汇总表让我困惑的一件事是在输出表中保留定义预测变量的顺序及其因子水平的最后一步我想出了一种解决方案如下其中涉及使用mutate手动创建一个因子

使用 dplyr tidyr 保留汇总表中输入变量和因子水平的顺序

使用 dplyr tidyr 保留汇总表中输入变量和因子水平的顺序 的相关文章

随机推荐

热门标签

使用 dplyr tidyr 保留汇总表中输入变量和因子水平的顺序的相关文章