多列代表一个值时的频率表 (R)

2024-03-08

我有一个这样的数据集：

ID    color1   color2  color3   shape1       shape2        size
55    red     blue     NA       circle       triangle      small
67    yellow  NA       NA       triangle     NA            medium
83    blue    yellow   NA       circle       NA            large
78    red     yellow   blue     square       circle        large
43    green   NA       NA       square       circle        small
29    yellow  green    NA       circle       triangle      medium

我想创建一个数据框，其中包含每个变量的频率和百分比，但我遇到了麻烦，因为在某些情况下同一变量有多个列。


Variable      Level        Freq        Percent 
 
color         blue          3           27.27
              red           2           18.18
              yellow        4           36.36
              green         2           18.18
              total         11          100.00

shape         circle        5           50.0       
              triangle      3           30.0
              square        2           20.0
              total         10          100.0

size          small         2           33.3
              medium        2           33.3
              large         2           33.3
              total         6           100.0

我相信我需要将这些变量转换为 long，然后使用 summarize/mutate 来获取频率，但我似乎无法弄清楚。任何帮助是极大的赞赏。

您可以使用tidyverse包将数据转换为长格式，然后总结所需的统计数据。

library(tidyverse)

df |> 
  # Transform all columns into a long format
  pivot_longer(cols = -ID,
               names_pattern = "([A-z]+)",
               names_to = c("variable")) |>
  # Drop NA entries
  drop_na(value) |>
  # Group by variable
  group_by(variable) |>
  # Count
  count(value) |>
  # Calculate percentage as n / sum of n by variable
  mutate(perc = 100* n / sum(n))

# A tibble: 10 x 4
# Groups:   variable [3]
#   variable value        n  perc
#   <chr>    <chr>    <int> <dbl>
# 1 color    blue         3  27.3
# 2 color    green        2  18.2
# 3 color    red          2  18.2
# 4 color    yellow       4  36.4
# 5 shape    circle       5  50  
# 6 shape    square       2  20  
# 7 shape    triangle     3  30  
# 8 size     large        2  33.3
# 9 size     medium       2  33.3
#10 size     small        2  33.3

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

多列代表一个值时的频率表 (R) 的相关文章

在 Shiny 中设置一个绘图缩放以匹配另一个绘图缩放

我正在尝试使用情节重排获取一个图的 x 轴缩放限制并将它们应用到 Shiny 中的另一个图到目前为止我可以从 plot1 x轴限制获取相关的plotly relayout数据将其转换从数字到日期并在绘制 plot2 之前将其提
可以明确声明包依赖项的版本吗？

我倾向于对我编写的代码进行明确而不是隐含的描述因此在成功创建自己的包之后我立即想到的下一件事是如何最好地确保代码的健壮性和可靠性其中一部分与我的包所依赖的包有关实际问题在这方面是否可以明确声明需要期望哪个版本的包依赖项我正
如果“testthat”测试在“R”中失败，则打印自定义诊断信息

I use a testthat单元测试来检查是否data frame函数返回的结果与我期望它返回的结果相同如果测试失败 testthat打印一些诊断信息例如 MyFunction df orig is not identical to
R-了解 akima::interp 结果中的 NA 值

我有以下数据框 ref dat k Intensity Slope 1 0 021467214 33 16 2 0 012444759 33 8 3 0 006079156 33 4 4 0 003792025 33 2 5 0 02276
如何让R使用所有处理器？

我有一台运行 Windows XP 的四核笔记本电脑但查看任务管理器 R 似乎一次只使用一个处理器如何让 R 使用全部四个处理器并加速我的 R 程序我有一个基本系统我使用它在 for 循环上并行化我的程序一旦您了解需要做什么此方
在函数内部调用 clusterApply 时，性能会下降

我遇到了一个奇怪的问题clusterApply 我已经能够尽可能地隔离它如下所示首先我从全局环境运行以下代码 require parallel cl lt makeCluster rep localhost 20 SOCK xl lt
ggplot 中的错误问题：“grid.Call(”L_textBounds“, as.graphicsAnnot(x$label), x$x, x$y, … 中的错误”[重复]

这个问题在这里已经有答案了我试图在 ggplot 中制作一个条形图其中我通过强制其中一些标签为长度为零的字符串即来指定要显示的标签但是我收到错误 Error in grid Call L textBounds as graphi
使用 dplyr:group_by 将数据帧分成多个子集？

有没有办法根据 group by 组使用 dplyr 将一个数据帧拆分为数据帧的子集 mtcars gt group by cyl gear gt codes 非常感谢好吧并不是你真的想要但你可以这样做tidyr 即nearly一样的
如何在 R 中为传单中的数值变量设置不对称颜色渐变

我想让传单调色板以零为中心红白绿发散我已经尝试过中所说的这个帖子 https stackoverflow com questions 29262824 r center color palette on 0 当我尝试手动创建颜色时我得
如何获得属于五分位数的x？

我正在大学学习使用 R 进行计量经济学项目所以请原谅我的笨拙基本上使用并给出一个矩阵股票价格行天列公司股票价格另一个矩阵市值行天列公司市值我必须收集第三个矩阵每天观察的属于市值分布第一五分位数的股票价格然后
R：将 readRDS 应用于 .Rds 文件名的列表对象

我有几个包含数据帧对象的 Rds 文件我想对每个文件应用一个函数并将数据帧绑定到单个数据帧中但是当我尝试从文件名列表中读取多个 Rds 文件时我收到错误 FUN X i 中的错误从连接读取时出错 readRDS 不适用于列表吗 R
R.matlab/readMat：readTag(this) 中出错

我正在尝试使用 R matlab 将 matlab 文件读入 R 但遇到此错误 require R matlab r lt readMat file mat verbose T Trying to read MAT v5 file stre
从 R 中的 HTTPS 连接逐行读取

当创建连接时open r 它允许逐行读取这对于批量处理大数据流非常有用例如这个脚本 https gist github com jeroenooms d33a24958d99bb969ac0通过一次读取 100 行来解析相当大的 gzi
R 编程：如何计算数据框中两个单元格之间的差异并将它们保存在新列中

尝试学习 R 并陷入自相关示例中我想将 x 的差异与 y 的差异进行回归我在数据框中有 x 和 y 并且希望将 x2 x1 的差值保存在新列例如 dx 中我不知道该怎么做我拥有的 data1 x y 5 3 8 9 3 1 1 5
逻辑回归/二项式的 glmnet 误差

当尝试将 glmnet 与 family binomial 配合以进行逻辑回归拟合时出现此错误 gt data lt read csv DAFMM HE16 matrix csv header F gt x lt as data fram
仅保留百分比的尾随零

给出以下示例 library pander tableAbs lt Titanic 1 1 tablePct lt round prop table tableAbs 100 2 table lt cbind tableAbs tableP
比较 R 中的两个字符向量

我有两个 ID 字符向量我想比较这两个字符向量特别是我对以下数字感兴趣 A和B各有多少个ID 有多少个ID在A中但不在B中有多少个ID在B但不在A 我还想画维恩图以下是一些可以尝试的基础知识 gt A c Dog Cat Mouse
glmnet 未从 cv.glmnet 收敛 lambda.min

我跑了20倍cv glmnet套索模型以获得 lambda 的最佳值但是当我尝试重现结果时glmnet 我收到一个错误内容如下 Warning messages 1 from glmnet Fortran code error c
表单提交时出现 rvest 错误

我想从以下网页中抓取数据 https swgoh gg u zozo collection 180 emperor palpatine https swgoh gg u zozo collection 180 emperor palpati
为什么 geom_boxplot 比基本箱线图识别更多异常值？

这是一个可重复的示例与基本箱线图相比最后一个治疗组又发现了一个异常值 dta lt structure list Treatment c A A A A A A A A A A A A A A A A B B B B B B B B B

随机推荐

http 错误 403.14-禁止

我成功地将我的测试 html 页面托管在iis8 当我尝试托管已经创建的网站时我得到了http错误 403 14 禁止即使我将默认文档设置为具有框架的起始 html 页面该网站有几个文件夹内部文件夹当我启用目录浏览时它将列出该页面
Process.start() 启动的进程返回错误的进程 ID？

我正在使用以下代码启动可执行文件 Process proc new Process proc StartInfo FileName executablePath proc Start proc WaitForInputIdle 在这次通话之
使用 Process、RegistryKey 将 .NET Framework 代码移植到 .NET Standard

我有一个来自现有 NET Framework 项目的方法该方法从注册表获取 Windows 中默认浏览器的路径并使用Process call string browser RegistryKey regKey null try regK
请参阅调试目的的 Firebase 网络流量

我希望能够使用 Charles Proxy 调试 firebase 分析我无权访问源代码因此无法在 Firebase 中启用调试视图我想要跟踪网络流量以便能够使用 Firebase Analytics 数据的 Charles 代理查
从 LINQ to SQL 生成的 T-SQL 缺少 where 子句

我有一个名为 CodeLookupAccessDataContext 的 DataContext 对象它是通过 Visual Studio LINQ to SQL 类向导生成的我扩展了该对象的功能使其公开一些方法来返回 LINQ to
如何将 javascript 代码注入到每个原型方法的开头？

我想在 javascript 中注入代码用于调试目的在每个人我的 JavaScript 方法原型这个例子只显示了一个类但是假设我有数百个类每个类有几十个方法该机制应该在原型级别执行而不需要指定每个类方法名称 function
何时“让它崩溃”以及何时捍卫 Erlang 中的代码？

因此带着让它崩溃的口号 Erlang 代码意味着能够抵御残酷的世界事件例如意外拔出插头硬件故障和不稳定的网络连接另一方面有防御性编程 https en wikipedia org wiki Defensive programm
Coq QArith 除以零就是零，为什么？

我注意到在 Coq 的有理数定义中零的倒数被定义为零通常除以零是没有明确定义合法允许的 Require Import QArith Lemma inv zero is zero 0 0 Proof unfold Qeq refle
启动时不继承父文件描述符

我需要使用 start 命令在 winXP 上启动一些进程听起来很简单但是有没有办法让启动的进程不会继承父进程的任何端口我在我的程序中使用以下方法启动孩子 system start x params 现在当父进程被杀死时我无法再次
二叉搜索树的广度优先遍历 C++

也许是快速简单的问题我已经实现了一个二叉树然后我希望将二叉搜索树转换为数组或者至少像在数组中一样打印出来我遇到的问题是如何获取 0 中的 NULL 标志例如假设我有一棵树如下所示 10 6 12 1 8 15 4 我希望它按
如何在 Cakephp 中发出 https post 请求

我有一个要求应用程序必须通过 HTTPS POST 进行 REST API 调用我是 cakephp 的新手我在想是否可以使用 httpsocket 进行 https 调用我很感激任何帮助 Thanks 您可以使用其中任何一个 CA
MacPorts gcc48 无法识别命令行选项“-stdlib=libc++”

Context 我正在尝试编译包 root numpy 它是科学分析软件 root 和python包 numpy 之间的链接它用作根包装器 rootpy 的一部分执行以下行时出现 g 错误 g bundle undefined dyna
EF AddOrUpdate 种子不更新子实体

我在播种数据时遇到一些问题我能够使用一个非常小的应用程序重现该问题鉴于您有这种种子方法 protected override void Seed JunkContext context context Junks AddOrUpdate
GCM 响应中的multicast_id 是什么？

示例场景我正在使用 GCM 向多个设备发送消息响应包含 multicast id 我该如何使用这个值 Thanks 它只是一个标识符多播ID标识多播消息的唯一 ID 编号该 ID 没有用处除非您希望将其作为 Google 的收据
npm运行服务报错

我在运行命令时遇到问题 npm 运行服务要修复它我需要注销或重新启动我的 Ubuntu 16 04 我检查了正在运行的任务节点没有运行我还卸载了node和npm并再次使用NVM安装但我仍然有问题 NPM错误日志 gt email
SSIS 包中的步骤如何检查时间？

我的控制流中的起始项目需要是检查时间并设置变量的项目控制流项中是否有一个项可以做到这一点访问您的系统变量 System StartTime 将是包开始执行的时间如果开始执行和需要评估当前时间的元素之间有很长的时间您可以查看 Cont
SQL Server - 向所有表添加默认约束

有没有办法编写一个脚本来检查数据库中的每个表寻找uniqueidentifier列名为ID 然后添加一个DEFAULT的约束NEWID 到列如果DEFAULT约束不存在根据OP的评论澄清进行编辑该脚本创建一个DEFAULT的约束NE
解决方案范围内的预构建活动？

我在 Visual Studio 中有一个解决方案其中包含多个项目我想在每次构建的一开始就运行一个命令无论涉及哪些项目以及它们是否是最新的本质上我需要类似于解决方案范围内的预构建事件的东西但不幸的是 VS 似乎不支持这些有谁知
Haskell：解析命令行参数

这更多的是一个风格问题而不是一个如何做的问题所以我有一个需要两个命令行参数的程序一个字符串和一个整数我是这样实现的 main do args aString aInteger lt getArgs let parsed n read
多列代表一个值时的频率表 (R)

我有一个这样的数据集 ID color1 color2 color3 shape1 shape2 size 55 red blue NA circle triangle small 67 yellow NA NA triangle NA m

多列代表一个值时的频率表 (R)

多列代表一个值时的频率表 (R) 的相关文章

随机推荐

热门标签