在 R 数据框中按组应用计算

2023-12-27

我有这样的数据：

object category country
495647 1        RUS  
477462 2        GER  
431567 3        USA  
449136 1        RUS  
367260 1        USA  
495649 1        RUS  
477461 2        GER  
431562 3        USA  
449133 2        RUS  
367264 2        USA  
...

其中一个物体出现在不同的(category, country)对和国家共享一个类别列表。

我想添加另一列，这是每个国家/地区的类别权重 - 出现在某个类别的类别中的对象数量，标准化为一个国家/地区内的总和为 1（仅对唯一的总和进行求和）(category, country) pairs).

我可以做类似的事情：

aggregate(df$object, list(df$category, df$country), length)

然后从那里计算权重，但是直接在原始数据上计算权重有什么更有效和优雅的方法呢？

所需的示例输出：

object category country weight
495647 1        RUS     .75
477462 2        GER     .5 
431567 3        USA     .5 
449136 1        RUS     .75
367260 1        USA     .25
495649 1        RUS     .75
477461 3        GER     .5
431562 3        USA     .5
449133 2        RUS     .25
367264 2        USA     .25
...

上述内容总结为一个国家内独特的(category, country) pairs.

具体回应最后一句话：“直接在原始数据上执行此操作有什么更有效和优雅的方法。”，碰巧的是data.table http://datatable.r-forge.r-project.org/为此有一个新功能。

install.packages("data.table", repos="http://R-Forge.R-project.org")
# Needs version 1.8.1 from R-Forge.  Soon to be released to CRAN.

将您的数据放入DT :

> DT[, countcat:=.N, by=list(country,category)]     # add 'countcat' column
    category country countcat
 1:        1     RUS        3
 2:        2     GER        1
 3:        3     USA        2
 4:        1     RUS        3
 5:        1     USA        1
 6:        1     RUS        3
 7:        3     GER        1
 8:        3     USA        2
 9:        2     RUS        1
10:        2     USA        1

> DT[, weight:=countcat/.N, by=country]     # add 'weight' column
    category country countcat weight
 1:        1     RUS        3   0.75
 2:        2     GER        1   0.50
 3:        3     USA        2   0.50
 4:        1     RUS        3   0.75
 5:        1     USA        1   0.25
 6:        1     RUS        3   0.75
 7:        3     GER        1   0.50
 8:        3     USA        2   0.50
 9:        2     RUS        1   0.25
10:        2     USA        1   0.25

:=通过引用数据添加一列，是一个“旧”功能。新功能是它现在按组工作。.N是保存每组中的行数的符号。

这些操作内存效率高，并且应该可以扩展到大数据；例如。，1e8, 1e9 rows.

如果您不想包含中间列countcat，然后将其删除即可。同样，这是一种高效的操作，无论表的大小如何（通过在内部移动指针），它都会立即起作用。

> DT[,countcat:=NULL]     # remove 'countcat' column
    category country weight
 1:        1     RUS   0.75
 2:        2     GER   0.50
 3:        3     USA   0.50
 4:        1     RUS   0.75
 5:        1     USA   0.25
 6:        1     RUS   0.75
 7:        3     GER   0.50
 8:        3     USA   0.50
 9:        2     RUS   0.25
10:        2     USA   0.25
>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

aggregation

dataTable

在 R 数据框中按组应用计算的相关文章

从网络源获取 R 中的数据作为数据框

我正在尝试使用 RCurl 包将一些空气污染背景数据作为 data frame 直接加载到 R 中该网站有 3 个下拉框用于在下载 csv 文件之前选择选项如下图所示我试图从下拉框中选择 3 个值并使用下载 CSV 按钮将数据作
如何生成向量的所有组合[重复]

这个问题在这里已经有答案了假设我有 3 个绿球 2 个橙球和 8 个黄球我想订购它们鉴于所有相同颜色的球都是相同的如何生成所有可能的序列在 R 中使用gregmisc 我可以 balls lt c orange orange g
如何调整ggplot直方图的时间刻度轴

我正在使用一个数据框其中一列包含POSIXct日期时间值我正在尝试使用绘制这些时间戳的直方图ggplot2但我有两个问题我不知道如何设置 binwidthgeom histogram 我想将每个垃圾箱设置为一天或一周我尝试提供 di
使用 ggplot2 修改点子集的形状

我正在尝试绘制一个沿大量维度变化的大型散点图这是我的起始情节 p lt ggplot mtcars aes wt mpg shape cyl colour gear size carb geom point 使用mtcars数据集我只是
dplyr 中的 Summarize 是否可以不删除数据框中的其他列？

我有一个包含三列的数据框我正在尝试进行简单的总结以查找数据框中每个城市的最高温度但同时保留每个最高温度列出的日期这是数据框我们称之为 maxT new ID Date Max TemperatureF 1 TUS 1960 04 0
R-了解 akima::interp 结果中的 NA 值

我有以下数据框 ref dat k Intensity Slope 1 0 021467214 33 16 2 0 012444759 33 8 3 0 006079156 33 4 4 0 003792025 33 2 5 0 02276
将值替换为其各自列的名称

我有一个数据框 Code 401k CVS 101A true 231N true FD54 true 99JB 85F4 true 我试图用相应的列名称例如 401k 替换 true 字符值这是我想要的输出 Code 401k CVS
如何更新条件公式？

让我直接进入示例考虑以下等式 frml lt formula y a b x z 使用这样的公式规范例如和AER ivreg 我想更新这个公式使其显示为 frml2 lt y a b c x z w 但是我不确定如何更新条件标志之前
查找数据帧列表中同一列中的所有重复值并将其转换为 NULL

我有一个清单BELGIAN COAST list包含数百个数据帧 df1 df2 15 列 X 1000 行每个数据帧的最后一列称为Chemicals并包含一些字符例如Sulfate or Ammonia 但是这一列有很多行Chemic
使用 dplyr:group_by 将数据帧分成多个子集？

有没有办法根据 group by 组使用 dplyr 将一个数据帧拆分为数据帧的子集 mtcars gt group by cyl gear gt codes 非常感谢好吧并不是你真的想要但你可以这样做tidyr 即nearly一样的
限制数据框中所有单元格的字符串长度？

您好有没有一种方法可以限制 data frame 中所有列的字符串文本大小而不必循环遍历每一列并一次使用 str trunc 之类的东西例如下面的数据框我可以将所有文本大小限制为仅 5 个字符而不必一次只执行一列吗如果有 50
R：将 readRDS 应用于 .Rds 文件名的列表对象

我有几个包含数据帧对象的 Rds 文件我想对每个文件应用一个函数并将数据帧绑定到单个数据帧中但是当我尝试从文件名列表中读取多个 Rds 文件时我收到错误 FUN X i 中的错误从连接读取时出错 readRDS 不适用于列表吗 R
将 sf voronoi 多边形裁剪到边界框时出错

我正在尝试将 voronoi polygons 使用 sf package 创建剪辑到边界框但它引发了我无法定义的错误我对 R 的空间世界不太有经验感谢所有帮助样本数据 stations lt structure list ST
R 更改小数位且不四舍五入

gt signif 1 89 digits 2 1 1 9 我想要1 8 这有点笨拙但它会起作用并保持所有数字 x lt 1 829380 trunc dec lt function x n floor x 10 n 10 n Resul
将函数应用于 3d 数组的每一层，返回一个数组

假设您有一个包含行列和层的 3 维数组 A lt array 1 27 c 3 3 3 想象你有一个函数它接受一个矩阵作为输入并返回一个矩阵作为输出就像t 如何将该函数应用于数组的每一层返回与第一层大小相同的另一个数组我觉得我应该
解析，用三点参数替换

让我们考虑一个典型的deparse substitute R call f1 lt function u x y print deparse substitute x varU vu varX vx varY vy f1 u varU x
R：将 JSON 时间格式转换为 POSIX

我有一个 JSON 字符串并将其放入数据框中我能够做到这一点但我在使用 apply 函数之一将所有时间字符串转换为 POSIX 格式时遇到问题 See here https stackoverflow com questions 90
ggplot散点图中的图例问题

我想使用 ggplot 创建显示方法比较数据的散点图绘图应包含原始数据理想线和带误差的拟合线图例应显示理想线和拟合线的线型线宽线颜色我可以获得大部分我想要的东西但是图例存在以下问题图例显示每种线型有 2 条线为什么如何解
ggplot2、R 中的单条形条形图

我有以下数据和代码 gt ddf var1 var2 1 aa 73 2 bb 18 3 cc 9 gt gt dput ddf structure list var1 c aa bb cc var2 c 73L 18L 9L Names
非闪亮上下文中的反应式对象绑定

实际问题你怎样才能近似反应性环境行为 http shiny rstudio com tutorial lesson6 建立者shiny http shiny rstudio com函数或者甚至可能在一个函数中使用这些函数无光泽上下文以

随机推荐

gensim 保存加载模型弃用警告

保存加载 gensim 词嵌入时我收到以下弃用警告 model save mymodel model home lib python3 7 site packages smart open smart open lib py 398 U
如何在 android M 上请求访问图库的权限？

我有这个应用程序它将选择图像到图库并使用 Imageview 将其显示给测试我的问题是它在 Android M 上不起作用我可以选择图像但不会在我的测试中显示他们说我需要请求许可才能访问 Android M 上的图像但不知道如何
使用Tomcat启动Spring Boot时的用户名和密码是什么？

当我通过 Spring Boot 部署 Spring 应用程序并访问localhost 8080我必须进行身份验证但是用户名和密码是什么或者如何设置我尝试将其添加到我的tomcat users文件但它不起作用
CRC4 在 C 中的实现

我修改了发现的实现here https stackoverflow com questions 28656471 how to confgure calculation of crc table 为 CRC4 构建表生成函数如下所示 de
在 Windows 2008 Server 上通过 TFS 进行 WatiN

我正在尝试通过 TFS 上的持续构建来运行 WatiN 测试但我无法让它工作我得到的错误如下 WatiN Core Exceptions IENotFoundException Could not find an IE window m
Apache 将除现有文件和文件夹之外的所有内容重定向到 index.php

我有 index php 读取完整路径 SERVER REQUEST URI 多变的我的任务是当用户输入 www domain resource 777重定向到index php有路径 resource 777并解析 SERVER REQ
如何将 pandas 数据帧列表转换为 3d numpy 数组？

如果我有一个清单pd DataFrame像这样 df pd DataFrame np random rand 4 5 columns list abcde df list df df 问题如何将其转换为 3Dnp array with s
Keras 最简单的神经网络模型：带有索引的training.py 中的错误

我读过这个例子https github com fchollet keras blob master examples mnist mlp py https github com fchollet keras blob master exa
如何查看 iPhone 模拟器的钥匙串

我开发了一个 iPhone 应用程序在其中使用公钥和私钥加密和解密数据我想在钥匙串中看到这个钥匙我在应用程序实用程序下找到了 mac 应用程序的钥匙串条目但 iPhone 模拟器钥匙串和 iPhone OS 本身的钥匙串在设备上的
java.lang.UnsatisfiedLinkError：dlopen失败：找不到库

我正在尝试使用 cmake 构建我的 Android 本机项目从 gradle 实验插件迁移它它以前可以正常构建和运行我有一些本机代码将其称为 a 它使用另一个外部预构建库代码将其称为 b 我将两者链接起来如下所示根据htt
Python 中 %i 和 %d 有什么区别？ [复制]

这个问题在这里已经有答案了好的我正在研究数字格式我发现你可以使用 d or i格式化一个整数例如 number 8 print your number is i number or number 8 print your numbe
将 asyncio 与多工作进程 ProcessPoolExecutor 相结合

是否可以采取阻塞功能例如work并让它同时运行在ProcessPoolExecutor有不止一名工人 import asyncio from time import sleep time from concurrent futures i
如何使用 getElementsByName 访问复选框及其值

假设我有一个表单的以下部分 td p p td
T(n-1) 的时间复杂度

我对解决这个时间复杂度问题感到困惑 T n T n 1 我知道在快速排序最坏的情况下T n T n 1 T 1 n 其评估结果为 n 1 n 2 n 3 1 这个几何数列等于O n 2 然而我在 stackoverflow 上看到答案说T
SharePoint 在线 OAuth2 令牌 invalid_scope

我正在尝试为我注册的 Azure AD 应用程序获取不记名令牌以通过 API 读取我的所有共享点网站我按照微软的指南进行了操作授予应用程序权限 https learn microsoft com bs latn ba azure ac
使用谷歌翻译脚本翻译的页面中的 SvG 元素抛出错误

我在页面中使用 SVG 元素当将页面转换为德语时我在控制台中遇到以下脚本错误错误未捕获类型错误 a b target className indexOf 不是功能有人有解决方案吗这与在 Chrome 中安装 Google Tr
隐藏 PHP / MySQL 错误消息

我有一个基于X Cart http www x cart com 运行良好但是当我转到该地址手动访问链接时www mysite com Xx
我们对 JS 中的箭头函数优化有任何保证吗？

假设我们有下一个函数 const x a gt a const result x hello 我们在 Google V8 Firefox Quantum 中是否有任何保证 x将被优化为const result hello 我为什么要问它请
在 Postgres 中将表行的子集从一个数据库复制到另一个数据库的最佳方法是什么？

我有一个生产数据库比如说有一千万行我想从过去一小时的生产中提取大约 10 000 行并将它们复制到我的本地盒子中我怎么做假设查询是 SELECT FROM mytable WHERE date gt 2009 01 05 12 0
在 R 数据框中按组应用计算

我有这样的数据 object category country 495647 1 RUS 477462 2 GER 431567 3 USA 449136 1 RUS 367260 1 USA 495649 1 RUS 477461 2 G

在 R 数据框中按组应用计算

在 R 数据框中按组应用计算 的相关文章

随机推荐

热门标签

在 R 数据框中按组应用计算的相关文章