计算数据框中某列的百分比 - 按列“分组”

2024-01-01

我是 R 初学者，我需要能够计算数据框中值的百分比，但经常按其他列值“分组”。

我有一个大约 1000 行的数据框，包含媒体类型、版本、集合（=年份）和计数（今年）。我可以过滤它们，只获取特定的媒体：

trSpdf <- trS[trS$Mediatype == 'application/pdf',]

并获得以下示例性输出：

> trSpdf 

        Mediatype Version Collection      Count
39 application/pdf      -1     co2008         2.0
40 application/pdf      -1     co2009         5.0
43 application/pdf       1     co2008         1.0
44 application/pdf       1     co2009         1.0
48 application/pdf     1.1     co2008        16.0
52 application/pdf     1.2     co2008        20.0
53 application/pdf     1.2     co2009        90.0
... (continuing) ...

我想要的是计算每个集合（=年份）的每个版本与该集合中的所有版本相比的百分比，因此对于本示例，结果应该是：

5.12% of all versions in co2008 were version -1 (2.0 / total sum for co2008)
2.56% of all versions in co2008 were version 1 (1.0 / total sum for co2008)
...
93,75% of all versions in co2009 were version 1.2 (90.0 / total sum for co2009)
...

预先感谢您提供有关如何解决此问题的任何答案。

首先，使用ave添加一列，给出每个的总计数Mediatype and Collection:

trS <- transform(trS, Tot.Count = ave(Count, Mediatype, Collection, FUN = sum))

然后，如何计算百分比就很简单了：

trS <- transform(trS, percentage = 100 * Count/Tot.Count)

或者，如果您希望其格式良好（例如“5.13%”），则使用sprintf:

trS <- transform(trS, percentage = paste0(sprintf("%.2f", 100 * Count/Tot.Count),
                                          "%"))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

DataFrame

计算数据框中某列的百分比 - 按列“分组” 的相关文章

删除ggplot2中的负图区域[重复]

这个问题在这里已经有答案了如何删除 ggplot2 中 x 轴和 y 轴下方的绘图区域请参见下面的示例我尝试了几个主题元素 panel border panel margin plot margin 但没有任何运气 p lt ggpl
R foreach问题（某些进程返回NULL）

我遇到了问题foreach我正在 R 中使用的程序的一部分该程序用于运行不同参数的模拟然后将结果返回到单个列表然后用于生成报告当并非所有分配的模拟运行都在报告上实际可见时就会出现问题从各方面来看似乎只有分配的运行的一个子集实际
我无法下载 R 中的 reshape2 包 [关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我在尝试安装 R 包时收到此响应 gt installed packages reshape2 Package LibPath V
R - Plm 和 lm - 固定效应

我有一个平衡面板数据集 df 本质上由三个变量组成 A B and Y 对于一堆独特识别的区域来说它会随着时间的推移而变化我想运行一个回归其中包括区域下面等式中的区域和时间年份固定效应如果我没记错的话我可以通过不同的方式来
纵向序列数据的三次样条方法？

我有一个串行数据格式如下 time milk Animal ID 30 25 6 1 31 27 2 1 32 24 4 1 33 17 4 1 34 33 6 1 35 25 4 1 33 29 4 2 34 25 4 2 35 24
如何计算R中移动窗口内的平均斜率

我的数据集包含2个变量y 和 t 05s y 每 05 秒测量一次我正在尝试计算移动中的平均坡度20秒窗口即计算第一个 20 秒斜率值后窗口向前移动一个时间单位 05 秒并计算下一个 20 秒窗口在以下位置生成连续 20 秒斜率值
Pandas：向量化局部范围操作（[i:i+2] 行的最大值和总和）

我希望在数据帧中的每一行的局部范围内进行计算同时避免速度缓慢for环形例如对于下面数据中的每一行我想找到未来 3 天内包括当天的最高气温以及未来 3 天内的总降雨量 Day Temperature Rain 0 30 4 1 3
替换 pandas 数据框中的点

我有一个如图所示的数据框数字实际上是对象正在做df treasury rate pd to numeric df treasury rate 可预见的炸弹然而做df replace np nan 似乎没有摆脱这个点所以我很困惑有
如何使用 Python Pandas 制作 DataFrame 切片并在特定切片中“fillna”？

问题让我们从 Kaggle 获取泰坦尼克号数据集我有包含 Pclass 性别和年龄列的数据框我需要用特定组的中位数填充年龄列中的 NaN 如果是来自一等的女性我想用一等女性的中位数填写她的年龄而不是整个年龄列的中位数问
如何使用 usmap 标记数字而不是名称？

我知道 usmap 有一个选项label in plot usmap 我想标记一些数字而不是状态名称我想 usmap 中应该有与州质心坐标相关的数据但我不知道如何找到它如果我能得到坐标然后我可以用它来标记数字geom text 这
在 R 中绘制 Likert 变量的堆积条形图

假设我有一个如下所示的数据框 P Q1 Q2 1 1 4 1 2 2 3 4 3 1 1 4 其中的列告诉我哪个人相应地回答了问题 q1 q2 中的哪一个这些问题需要按照 4 分李克特量表进行回答例如批准表示 1 稍微批准表示 2
pyomo + 网状错误 6 句柄无效

我正在尝试运行pyomo优化我收到错误消息 Error 6 The handle is invalid 不知道如何解释它环顾四周似乎与特权有关但我不太明白在下面找到完整的错误跟踪以及重现它的玩具示例完整的错误跟踪 py run f
在 R 中创建虚拟变量，排除某些情况为 NA

我的数据看起来像这样 V1 V2 A 0 B 1 C 2 D 3 E 4 F 5 G 9 我想创建一个虚拟变量R where 0 1 1 2 3 4 and NA 0 5 9 应该很简单有人可以帮忙吗我们可以转换V2 into a fa
在 R 格子包中微调点图

我正在尝试为不同的数据集和不同的算法绘制一堆 ROC 区域我有三个变量方案指定所使用的算法数据集是正在测试算法的数据集以及 Area under ROC 我正在 R 中使用lattice库命令如下点图方案 Area und
以引用透明的方式从函数的省略号参数中提取符号

事情又发生了我正要按下发布答案按钮的问题被删除了我正在寻找一种方法来从函数的省略号参数中提取绑定到符号的对象的值以及符号也就是说我试图以引用透明的方式从省略号中提取符号我尝试过使用替代品和lazy dots 但没有成功 funct
r 中训练和测试数据的最小最大缩放/归一化

我正在创建一个函数它将训练集和测试集作为其参数最小最大缩放标准化并返回训练集并使用这些same最小值和最小最大范围的值标准化并返回测试集到目前为止这是我想出的功能 min max scaling lt function tr
使用 Shiny 发布平行坐标图表时出现“错误：路径[1]="”：没有这样的文件或目录”

我有一个似乎很常见但我还没有找到解决方案的问题当尝试使用 rCharts Parcoords 发布 Web 应用程序时出现以下错误错误路径 1 没有这样的文件或目录奇怪的是该应用程序在我的笔记本电脑上运行得很好下面是我正在使用
ddply 和aggregate 之间的区别

有人可以通过以下示例帮助我了解聚合和 ddply 之间的区别数据框 mydat lt data frame first rpois 10 10 second rpois 10 10 third rpois 10 10 group c re
如何仅删除单括号并保留配对的括号

你好我亲爱的老师 R 用户朋友们我最近开始认真学习正则表达式最近我遇到了一种情况我们只想保留配对括号并省略未配对的这是我的样本数据 structure list t1 c Book Pg 1 Website Online Jou
Pandas 与 Numpy 数据帧

看这几行代码 df2 df copy df2 1 df 1 df 1 values 1 df2 ix 0 0 我们的教练说我们需要使用 values属性来访问底层的 numpy 数组否则我们的代码将无法工作我知道 pandas Data

随机推荐

将数据从 Excel 工作表导入 SQL Server 数据库

如何在asp net中将Excel工作表中的数据导入到SQL Server数据库中 Dim OleDbcon As New OleDbConnection Convert ToString Provider Microsoft ACE OL
如何向 JSON 数组追加特定数据

我正在尝试运行 name Describe config aggregator shell gt aws configservice describe configuration aggregators configuration aggr
为双向量创建自己的迭代器

我对 C 有点陌生所以这个问题可能没有任何意义所以提前对此表示抱歉所以我有一类哈希表我的哈希表是向量的向量这意味着我使用 std vector
使用 hashmap 的多列列表中出现 nullPointerException

我已经尝试过类似问题的参考但还没有得到适当的解决方案我正在尝试从网页中获取数据并以由 4 列行组成的格式显示它网页上显示的数据 SBIN 1916 00 1886 85 1 54 LT 1315 50 1310 30 0 40 TCS
由于更改了 Securitystamp，ConfirmEmail 中的令牌无效

一段时间以来我一直在用头撞墙来解决这个问题我有一个带有 ASP NET Identity 2 2 1 的 ASP NET MVC 5 2 3 Web 应用程序我想强迫用户验证他们的电子邮件地址并验证他们的手机号码因此当用户注册
Cypress 自定义 TypeScript 命令不是函数

我正在 TypeScript 中实现自定义 Cypress 命令 support commands ts const login gt console log Logging in Cypress Commands add login lo
如何允许用户覆盖输入类型数字中的数字（当已经有两个数字时）？

请参阅下面的 JavaScript maxLengthDay event const maxLength 2 if event target value length 1 gt maxLength return false else ret
Flex 容器中的绝对定位项目在 IE 和 Firefox 中仍被视为项目

If I have multiple elements with the property justify content space between in a flex container and I want to absolute p
Rails 将updated_at 转换为rfc3339 格式

我正在尝试将标准 Rails DB 字段created at 和updated at 转换为atom feed rfc3339 格式到目前为止我已经尝试过 DateTime rfc3339 issue updated at and Dat
如何在Windows 10环境变量中的系统变量中添加多个PATH？

我错误地删除了系统变量下的整个 PATH 变量所以我尝试将一个名为 PATH 的变量显式添加到系统变量中但现在每当我尝试添加多个路径时每个路径都会覆盖前一个路径截图1 https i stack imgur com 4V1aj jp
Elasticsearch 查询中的 OR 和 AND 运算符

我有一些具有以下格式的 json 文档 source userId A1A1 customerId C1 component comp 1 timestamp 1408986553 我想根据以下内容查询文档 userId currentUs
Rails 3.2 中使用 gmail 或 SendGrid 时出现邮件程序身份验证错误

我正在尝试从一个非常简单的 Rails 3 2 应用程序设置邮件尝试过 Gmail 尝试过 SendGrid 得到同样的错误 Net SMTPAuthenticationError in UsersController create 53
pandoc 和 mathjax 遇到一些问题

我正在尝试使用 pandoc 从包含一些乳胶的 markdown 文件生成 html 幻灯片该文件是在github上 https raw github com rcalsaverini ThesisPresentation master
在 Silverlight 中显示 GIF

我的网络服务器上的文件夹中有许多 gif dir subdir bla gif etc 在同一台服务器上有一个 Silverlight 3 应用程序 ClientBin bla xap 有没有办法在 Silverlight 应用程序中显示
禁用某些元素的 nganimate

我正在使用 ngAnimate 模块但是我所有的ng if ng show等受其影响我想利用 ngAnimate 来处理某些选定的元素对于性能和元素中的一些错误显示和隐藏速度非常快 thanks 如果您想为特定元素启用动画而不是
WebDriverError：已断开连接：无法连接到渲染器

Meta 操作系统 OSX 10 12 6 16G29 node modules chromedriver bin chromedriver v ChromeDriver 2 32 498537 cb2f855cbc7b82e20387ea
如何确定 Neo4j 中节点内的属性值类型？

目前似乎没有办法确定节点或关系中的属性值是数组集合还是字符串匹配 n 其中 isArray n myprop 当尝试了解您正在使用的与更新和查询相关的数据类型时这将非常方便具体来说如果您遇到这样的情况您正在尝试更新属性值
使用 With 绘图与使用 Block 绘图 (Mathematica)

我想描述一个我一直遇到的问题Plot using With保持定义的参数本地我不一定要求解决我遇到的问题是理解问题有时我使用如下结构来获取绘图 Method 1 plot1 With vmax 10 km 10 Plot Evalu
C# 中的 TimeSpan 到本地化字符串

有没有一种简单的方法可能是内置的解决方案来转换TimeSpan本地化字符串例如new TimeSpan 3 5 0 将被转换为3 hours 5minutes 仅用波兰语我当然可以创建自己的扩展 public static stri
计算数据框中某列的百分比 - 按列“分组”

我是 R 初学者我需要能够计算数据框中值的百分比但经常按其他列值分组我有一个大约 1000 行的数据框包含媒体类型版本集合年份和计数今年我可以过滤它们只获取特定的媒体 trSpdf lt trS trS Mediat

计算数据框中某列的百分比 - 按列“分组”

计算数据框中某列的百分比 - 按列“分组” 的相关文章

随机推荐

热门标签