通过使用 dplyr 对变量进行分组来将多列的响应制成表格

2024-05-01

你好：我是 plyr/dplyr 系列的新手，但很喜欢它。我可以看到它对我自己的工作有巨大的实用性，但我仍在努力解决它。
我有一个如下所示的数据框。

1) 如何为每个非分组变量生成一个表格，以显示分组变量每个值内的响应分布？

2）注意：我确实有一些缺失值，我想将它们从列表中排除。我意识到 summarise_each 命令会将函数应用于每一列，但我不知道如何以简单的方式处理缺失值问题。我看到一些代码建议您必须过滤掉缺失值，但是如果缺失值随机分散在非分组变量中怎么办？

3）从根本上说，最好只使用 dplyr 的完整案例吗？

#library
library(dplyr)
#sample data
group<-sample(c('A', 'B', 'C'), 100, replace=TRUE)
var1<-sample(c(1,2,3,4,5,NA), 100, replace=TRUE,     prob=c(0.15,0.15,0.15,0.15,0.15,0.25))
var2<-sample(c(1,2,3,4,5,NA), 100, replace=TRUE, prob=c(0.15,0.15,0.15,0.15,0.15,0.25))
var3<-sample(c(1,2,3,4,5,NA), 100, replace=TRUE, prob=c(0.15,0.15,0.15,0.15,0.15,0.25))
df<-data.frame(group, var1, var2, var3)
#my code
out_df<-df %>%group_by(group)
out_df %>% summarise_each(funs(table))

您可以通过以下方式获取计数group对于每个var1, var2, and var3如果您首先将数据框“融化”为长形式，这将“堆叠”这三个var列合并为单列（value），然后创建一个附加列（variable) 标记哪些行与哪些行相关var.

library(dplyr)
library(reshape2)

#sample data
group <- sample(c('A', 'B', 'C'), 100, replace=TRUE)
var1 <- sample(c(1,2,3,4,5,NA), 100, replace=TRUE, prob=c(0.15,0.15,0.15,0.15,0.15,0.25))
var2 <- sample(c(1,2,3,4,5,NA), 100, replace=TRUE, prob=c(0.15,0.15,0.15,0.15,0.15,0.25))
var3 <- sample(c(1,2,3,4,5,NA), 100, replace=TRUE, prob=c(0.15,0.15,0.15,0.15,0.15,0.25))

df<-data.frame(group, var1, var2, var3)

out_df <- df %>% 
  melt(id.var="group") %>%
  filter(!is.na(value)) %>%  # Remove NA
  group_by(group, variable, value) %>%
  summarise(count=n()) %>% 
  group_by(group, variable) %>% 
  mutate(percent=count/sum(count))

您可以随时停止函数链以查看中间步骤，这将有助于理解每个步骤正在做什么。

因为我们分组依据group, variable, and value，我们最终得到count给我们这三列组合的行数。然后我们只分组group and variable计算每个值的行百分比count对两个分组变量的每个组合都有贡献。（第二group_by不是必需的，因为 dplyr 会删除 a 之后的最后一个分组变量summarise操作（因为所有原始分组变量的每种组合只有一行），但我更喜欢显式重新分组。）

这是最终结果：

out_df

   group variable value count    percent
1      A     var1     1     6 0.26086957
2      A     var1     2     3 0.13043478
3      A     var1     3     6 0.26086957
4      A     var1     4     1 0.04347826
5      A     var1     5     7 0.30434783
...
41     C     var3     1     6 0.25000000
42     C     var3     2     5 0.20833333
43     C     var3     3     4 0.16666667
44     C     var3     4     2 0.08333333
45     C     var3     5     7 0.29166667

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

通过使用 dplyr 对变量进行分组来将多列的响应制成表格的相关文章

如何从R中串扰的filter_select中删除（全部）？

我遵循图 16 7 的示例https plotly r com client side linking html https plotly r com client side linking html并且无法弄清楚为什么有一个名为全部的
tidyverse 干扰 ggplot2 吗？无法访问map_data

在控制台中运行这些命令输出为 gt cty0 ggplot2 map data county gt library tidyverse Loading tidyverse ggplot2 Loading tidyverse tibble
将文件夹中的多个 csv 文件读取到 R 中的单个数据帧中[重复]

这个问题在这里已经有答案了我有一个包含 332 个 csv 文件的文件夹文件名称如下 001 csv 002 csv 003 csv 330 csv 331 csv 332 csv 所有文件都具有相同数量的变量和相同的格式我需要读取一
ggsubplot 是否适用于 R 3.2.1+？

CRAN 提供的 ggsubplot 版本与 R 的最新版本例如 3 1 1 不兼容运行 ggsubplot 示例会返回以下错误 Error in layout base data vars drop drop At least one
根据 R 中的字符串模式选择行

假设我有以下数据 df lt data frame name c TO for Turnover for people HC people Hello world beenie man apple pears TO is number c
更新两组单选按钮 - 闪亮

我问了这个问题反应式更新两组单选按钮闪亮 https stackoverflow com questions 35040579 update two sets of radiobuttons reactively shiny 昨天但也
使用神经网络包进行多项分类

这个问题应该很简单但文档没有帮助我正在使用 R 我必须使用neuralnet多项式分类问题的包所有示例均针对二项式或线性输出我可以使用二项式输出进行一些一对一的实现但我相信我应该能够通过使用 3 个单元作为输出层来做到这一点其中
在 R 的替换命令中取消引用字符串

我想知道是否可以unquote通过替换命令传递给表达式的字符串具体来说我使用 dplyr 从数据框中过滤和选择 gt w subject sex response 1 1 M 19 08 2 2 M 16 46 6 6 M 23 60
Shiny：从DT数据表中选定的行获取信息

我们正在尝试重新创建示例 https demo shinyapps io 029 row selection https demo shinyapps io 029 row selection 使用DT包来渲染数据帧而不是shiny包 DT
在 Windows / Linux 中创建 Mac 包

我自己努力制作一个 r 包我按照 stackoverflow 中上一个问题的说明进行操作如何为外行开发软件包 http cran r project org bin windows Rtools 以下是我根据上一个问题采取的步骤在新的
如何将数据从长格式重塑为宽格式

我在重新排列以下数据框时遇到问题 set seed 45 dat1 lt data frame name rep c firstName secondName each 4 numbers rep 1 4 2 value rnorm 8 d
Shiny ：针对所有错误显示一条消息

我在 R 的 Shiny 中有一个应用程序我想处理消息以便用户看不到发生了什么错误我知道通过 tags style type text css shiny output error visibility hidden shiny ou
使用 R 下载压缩数据文件、提取并导入 .csv

我正在尝试使用以下方法从网页下载并提取 csv 文件R 这个问题是重复的使用 R 下载压缩数据文件提取和导入数据 https stackoverflow com questions 3053833 using r to download
如何创建 highcharter 事件函数以在 Shiny R 中创建“下拉函数”

我正在建造一个shiny应用程序我想要完成的事情之一是创建一个下拉菜单我想将劳动力变量绘制为不同级别的年份变量的函数请参阅下面的示例数据框 year level 2 level 3 labour 1 2013 10 101 1 2 2
构造奎因（自我复制功能）

有没有人构建过 quine 生成自己源文本的副本作为其完整输出的程序 http www nyx net gthompso quine htm http www nyx net gthompso quine htm 在 R 中 quine 标
使用矢量相应地更改传单线条的颜色

无论如何是否可以根据某些变量的值更改传单线条的颜色我用谷歌搜索发现了这个link http hgoebl github io Leaflet MultiOptionsPolyline demo 然而我想知道是否有一种简单的方法可以在
R ggplot2 分面保持比率但覆盖/定义输出图大小

我目前正在使用 ggplot2 来比较不同组的统计数据每个组属于不同的区域这是通过运行 R 脚本的 Web 应用程序 tikiwiki CMS 插件 R 完成的每个区域我可以有 2 到 30 个或更多组相同的 R 脚本针对唯一网页中
如何使用 Facet R 添加线条[重复]

这个问题在这里已经有答案了所以我有一个多面图我希望能够向其中添加随每个面而变化的线这是代码 p lt ggplot mtcars aes x wt geom histogram bins 20 aes fill factor cyl
如何将 Shiny 中生成的反应图传递到 Rmarkdown 以生成动态报告

简而言之我希望能够通过单击按钮从我的闪亮应用程序生成动态 Rmarkdown 报告文件 pdf 或 html 为此我想我将使用 Shiny 的参数化报告但不知何故我无法将单个谜题转移到所需的目标使用此代码我们可以在 R Shin
SparkR 和 Sparklyr 之间导入 parquet 文件所需的时间差异

我正在使用 databricks 导入镶木地板文件SparkR and sparklyr data1 SparkR read df dbfs data202007 source parquet header TRUE inferSchema

随机推荐

使用nodes()方法在SQL中展平分层XML

我有一个存储过程它采用 XML 文档作为参数其结构类似于以下内容
.NET 的 SMS 库 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有人知道 NET 的免费 SMS 库或网络服务可以让我向人们的手机发送短信吗您实际上在寻找什么图书馆
比较 PHP 和 NodeJS 之间的 BCrypt 哈希值

对于我正在开发的应用程序 nodejs 需要验证 PHP 创建的哈希值反之亦然问题是 PHP 中生成的哈希值通过 Laravel 的Hash类它只使用 PHP 的password hash函数在 Node js 中测试时返回 fa
添加maven依赖后，org.apache.catalina.filters.CSRF_NONCE错误信息

在tomcat7管理器中当我部署 war 文件时出现此消息 manager html upload org apache catalina filters CSRF NONCE 11DD9FAE4DEB7F9DB7DC4FD9A308B
防止编译器为 C++ 类定义复制构造函数和运算符 = 重载

有没有一种方法可以阻止编译器为 C 类定义复制构造函数 operator 重载您可以将这些函数声明为私有函数这样可以防止人们在使用您的类时使用它们同时防止编译器生成它们
通过元层覆盖 Yocto 类

感谢您的时间和支持我计划使用 swupdate 进行更新因此我需要创建一个额外的分区来存储恢复分区 poky meta classes image live bbclass 是创建分区并刷新根文件系统的类我已更新上述文件以再创建一个
Scheme 和 Racket 中嵌套引号的行为

在 Racket 中编写函数时我不小心在符号前面放了两个单引号而不是一个即我不小心写了 a 并发现嵌套引号的一些行为看起来很奇怪我正在使用 DrRacket 并使用 Racket lang 和 R5RS lang 对此进行了测试 wr
Javascript：stringify对象（包括类型函数的成员）

我正在寻找一种解决方案来跨浏览器将 Javascript 对象序列化和反序列化为字符串包括恰好是函数的对象成员一个典型的对象看起来像这样 color red doSomething function arg alert Do som
Java 容器删除方法无法正常工作

我添加了 1 TextArea 2 TextField 然后我开始在容器上连续添加 JButton 现在通过使用 JRadioButton 我想使用此代码从容器中删除 JButton i 0 k 0 while birdButton i i
如何使用工厂来创建使用策略模式的对象？

假设我们的在线商店有一个简单的支付功能我们希望使用不同的交易处理器来管理不同的交易交易可以是付款或退款交易处理器可以是 Paypal 或 Payplug 所以我们有以下课程 class PaymentTransaction imple
SQL CLR 内的 WCF 客户端

我知道它不受支持而且我知道这甚至不是一个好主意但是我希望在 SQL 表值函数中拥有一个 WCF 客户端我看似注册了正确的程序集但在运行我的客户端时我收到 WCF 错误 Msg 6522 Level 16 State 1 Li
如何从 Spark UI 检索输出大小和写入记录等指标？

如何在任务或作业完成后立即在控制台 Spark Shell 或 Spark 提交作业上收集这些指标我们使用 Spark 将数据从 Mysql 加载到 Cassandra 数据非常庞大例如 200 GB 和 600M 行当任务完成后
将 python NLTK 解析树保存到图像文件[重复]

这个问题在这里已经有答案了这可能会复制这个 stackoverflowquestion https stackoverflow com questions 23429117 saving nltk drawn parse tree to
使用 Office-JS 获取当前区域

如何使用 Excel JS API 获取 ActiveCell 周围的当前区域在 VBA 中这是 Set rng ActiveCell CurrentRegion JavaScript API 中的当前区域属性现已实现该属性称为getS
图像缩放会导致 Firefox/Internet Explorer 质量较差，但 Chrome 不会

See http jsfiddle net aJ333 1 http jsfiddle net aJ333 1 在 Chrome 中然后在 Firefox 或 Internet Explorer 中图像最初是 120 像素我缩小到 2
如何从 Python (2.7) 中生成的进程中消除 Windows 控制台？ [复制]

这个问题在这里已经有答案了可能的重复在没有控制台的情况下使用 Popen 在 python 中运行进程 https stackoverflow com questions 1813872 running a process in pyt
为什么在不同的情况下应该使用不同数量的转义字符？

对于Java中的正则表达式为什么我应该写 n 定义一个新行字符并 s 定义空白字符为什么反斜杠的数量不同 Java 进行自己的字符串解析将其从代码转换为内存中的内部字符串然后before它将字符串发送到正则表达式解析器 Java转换
gamma(double x) 的定义是什么以及为什么它在两个 gcc 版本上不同？

通过不幸的情况我发现我的标准库实现
使用 OleDbConnection 读取使用 Open xml SDk 创建的 xlsx 文件

我使用 Open Xml SDK 标准创建了 xlsx 文件在 Excel 中打开它时一切都很完美我的问题是我无法使用 OleDbConnection 打开该创建的文件但其他未创建的 xlsx 文件 OleDB 也可以打开将很高兴
通过使用 dplyr 对变量进行分组来将多列的响应制成表格

你好我是 plyr dplyr 系列的新手但很喜欢它我可以看到它对我自己的工作有巨大的实用性但我仍在努力解决它我有一个如下所示的数据框 1 如何为每个非分组变量生成一个表格以显示分组变量每个值内的响应分布 2 注意我确实有一些

通过使用 dplyr 对变量进行分组来将多列的响应制成表格

通过使用 dplyr 对变量进行分组来将多列的响应制成表格 的相关文章

随机推荐

热门标签

通过使用 dplyr 对变量进行分组来将多列的响应制成表格的相关文章