如果其他两列中的值的组合是唯一的，则对变量求和[重复]

2024-01-08

我有发件人和收件人的数据以及发送的电子邮件数量。一个玩具示例：

senders <- c("Mable","Beth", "Beth","Susan","Susan")
receivers <- c("Beth", "Mable", "Susan", "Mable","Beth")
num_email <- c(1,1,2,1,1)

df <- data.frame(senders, receivers, num_email)

senders receivers num_email
Mable      Beth          1
Beth       Mable         1
Beth       Susan         2
Susan      Mable         1
Susan      Beth          1

我想获得一个 data.frame，其中包含每个唯一对的总消息。例如。连接 Mable | Beth 的值为 2，因为 Mable 向 Beth 发送了一条消息，而 Beth 向 Mable 发送了一条消息。对于每个唯一的电子邮件发送者组合，生成的 data.frame 应该只有一行（例如，只有 Mable | Beth 或 Beth | Mable，而不是两者都有。

我已经尝试了各种重塑和 data.table 的方法，但我没有任何运气。我想避免创建一个唯一的字符串 BethMable 并以这种方式合并。非常感谢

我们可以使用base R方法首先sort按行计算前两列。我们用apply with MARGIN=1为此，转置输出，转换为“data.frame”以创建“df1”，使用公式方法aggregate得到sum按转换数据集的前两列分组的“num_email”。

df1 <- data.frame(t(apply(df[1:2], 1, sort)), df[3])
aggregate(num_email~., df1, FUN=sum)

#      X1    X2 num_email
# 1  Beth Mable         2
# 2  Beth Susan         3
# 3 Mable Susan         1

或者使用data.table，我们将前两列转换为character class, unname将前两列的列名更改为默认的“V1”、“V2”，并转换为“data.table”。使用字符列的字典顺序，我们为 i (V1 > V2），分配（:=) 通过反转列的顺序来满足条件的列 (.(V2, V1)），并得到sum按“V1”、“V2”分组的“num_email”。

library(data.table)
dt = do.call(data.table, c(lapply(unname(df[1:2]), as.character), df[3]))
dt[V1 > V2, c("V1", "V2") := .(V2, V1)]
dt[, .(num_email = sum(num_email)), by= .(V1, V2)]

#       V1    V2 num_email
# 1:  Beth Mable         2
# 2:  Beth Susan         3
# 3: Mable Susan         1

或者使用dplyr，我们用mutate_each将列转换为character类，然后颠倒顺序pmin and pmax，按“V1”、“V2”分组并得到sum“num_email”。

library(dplyr)
df %>%
  mutate_each(funs(as.character), senders, receivers) %>%
  mutate( V1 = pmin(senders, receivers), 
          V2 = pmax(senders, receivers) ) %>%
  group_by(V1, V2) %>%
  summarise(num_email=sum(num_email))

#      V1    V2 num_email
#   (chr) (chr)     (dbl)
# 1  Beth Mable         2
# 2  Beth Susan         3
# 3 Mable Susan         1

注意：data.table解决方案已由@Frank 更新。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

如果其他两列中的值的组合是唯一的，则对变量求和[重复] 的相关文章

在 r 中导出矩阵

我想在 R 中导出一个矩阵并保留行和列的名称当我使用 write table 或 write csv 时我得到一个带有新列的矩阵我该如何使用这个功能感谢您的帮助您不会获得新列行名称将保存为文本文件中的第一列因此您可以指定在
R 脚本自动化时的不同结果

以下命令对 pdf 文件执行 Ghostscript 这pdf file变量包含该 pdf 的路径 bbox lt system paste C gs gs8 64 bin gswin32c exe sDEVICE bbox dNOPAUS
LaTex 中与 knit 和 xtable 交叉引用的问题

我目前正在与 R Studio 合作使用 LaTex 中的 R knitr 生成 PDF 文档在这些文档中我想在文本中引用的表格中展示我的部分结果我使用 R 中的 xtable 包生成这些表它运行良好并为我提供了正确的表到目前为
如何获得 STAN 中最大似然估计的标准误差？

我在 Stan 中使用最大似然优化但不幸的是optimizing 函数不报告标准错误 gt MLb4c lt optimizing get stanmodel fitb4c data win data init inits STAN OP
将循环转换为并行计算的函数

我正在使用 R 编程语言我遇到这个问题我试图找出两个 shapefile 之间的成对交集即第一个 shapefile 中的每个多边形与第二个 shapefile 中的所有多边形相交的百分比我想我找到了解决这个问题的基本方法 Load
基于另一个数据集获取数据集的子集

假设我有一个数据集即 dat1 ID block plot SPID TotHeight 1 1 1 4 44 5 2 1 1 4 51 3 1 1 4 28 7 4 1 1 4 24 5 5 1 1 4 27 3 6 1 1 4 20
如何对同一列上的数据帧列表中的所有数据帧进行排序？

我有一个数据框列表dataframes list 举个例子我把dput dataframes list 在底部我想对列列表中的所有数据框进行排序enrichment 我可以对一个数据框进行排序 first dataframe lt da
numpy.histogram 的 hist 维度，密度 = True

假设我有这个数组 A array 0 0019879 0 00172861 0 00527226 0 00639585 0 00242005 0 00717373 0 00371651 0 00164218 0 00034572 0 008
如何在for循环中引用变量？

我正在循环访问不同的 data tables 和 data table 中的变量但我在引用内部变量时遇到问题for loop dt1 lt data table a1 c 1 2 3 a2 c 4 5 2 dt2 lt data tabl
如何从 R 运行带有特定模块的 perl 脚本？

我可以从终端运行 perl 脚本 myperlscript pl 没有任何问题但是如果我尝试从 RStudio 中运行相同的 perl 脚本则会出现以下错误 command lt myperlscript pl outputfile
在 R 中向散点图添加线条

如何向图表添加线条我做了以下 dat lt data frame xvar 1 20 rnorm 20 sd 10 yvar 1 20 rnorm 20 sd 10 zvar 1 20 rnorm 20 sd 10 plot dat 1
将数据框中的每个 x 个字符拆分为字符串

我知道这里有一些关于每隔一段时间分割一个字符串的答案nth字符例如this one https stackoverflow com questions 23208490 split each character in r and this
Dendextend：关于如何根据定义的组为树状图的标签着色

我正在尝试使用一个名为 dendextend 的很棒的 R 包来绘制树状图并根据一组先前定义的组为其分支和标签着色我已阅读您在 Stack Overflow 中的答案以及 dendextend vignette 的常见问题解答但我仍然不
pyomo + 网状错误 6 句柄无效

我正在尝试运行pyomo优化我收到错误消息 Error 6 The handle is invalid 不知道如何解释它环顾四周似乎与特权有关但我不太明白在下面找到完整的错误跟踪以及重现它的玩具示例完整的错误跟踪 py run f
在 R 中创建虚拟变量，排除某些情况为 NA

我的数据看起来像这样 V1 V2 A 0 B 1 C 2 D 3 E 4 F 5 G 9 我想创建一个虚拟变量R where 0 1 1 2 3 4 and NA 0 5 9 应该很简单有人可以帮忙吗我们可以转换V2 into a fa
在 R 格子包中微调点图

我正在尝试为不同的数据集和不同的算法绘制一堆 ROC 区域我有三个变量方案指定所使用的算法数据集是正在测试算法的数据集以及 Area under ROC 我正在 R 中使用lattice库命令如下点图方案 Area und
将每列的值乘以 R 中另一个 data.frame 中的权重

我有两个data frames df and weights 代码如下 df看起来像这样 id a b d EE f 1 this 0 23421153 0 02324956 0 5457353 0 73068586 0 5642554 2
在 R 中使用 lapply 绘制多个数据帧

我正在尝试使用 lapply 函数绘制多个数据帧每个数据帧一个图但是尽管有关此主题的所有帖子我都找不到答案因为我不断收到错误图的输出列表为空我的数据结构如下 df1 lt mtcars gt group by cyl gt tal
ggplot2 geom_密度和geom_histogram在一个图中

如何制作一个所有条形加起来为 1 的直方图并在适合的上方添加一个密度层 set seed 1234 df lt data frame sex factor rep c F M each 200 weight round c rnorm 2
只读取选定的列

谁能告诉我如何仅读取下面每年数据的前 6 个月 7 列例如使用read table Year Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2009 41 27 25 31 31 39 2

随机推荐

将动态库注入企业应用程序（ipa）

我想将我的库注入到现有的企业应用程序 ipa 文件中我找到了 mach inject 但这仅适用于 MacOS 其可能是因为https www mocana com https www mocana com正在这样做请帮忙任何想法
如何在 Angular 4 规范文件中模拟 nativeElement.focus()

我有一个方法使用ElementRef其定义如下 ViewChild idNaicsRef idNaicsRef ElementRef ElementRef然后使用设置焦点 nativeElement focus 该方法在运行规范时失败提示
将估算数据从模型添加到数据集 - hmisc aregImpute

我正在尝试使用 hmisc 从数据集中估算值我正在跟进本指南 https rstudio pubs static s3 amazonaws com 344055 0c737f77c0ef4e36b6865cb843a7bb4a html
PartialFunction 和 MatchError

定义 PF 有两种方法 1 用文字case 语法和 2 作为显式类我需要以下函数抛出 MatchError 但在第二种情况下不会发生 1 带外壳 val test PartialFunction Int String case x if
asp.net core 构建错误：“HttpRequestMessageExtensions”

使用 ASPNet Core 1 1 Web API 模板并尝试在 Post 上创建响应构建项目时出现以下错误感谢您的帮助 Controllers MessagesController cs 37 28 37 72 错误 CS0433
带有圆角、描边边缘和选择器图标的自定义微调器

我想要我的Spinner具有黑色渐变背景左侧带有白色文本右侧有一个选择器图标白色向下的三角形在我看来有两种方法可以解决这个问题如果我将背景设置为 xml 可绘制资源我可以使我的Spinner看起来很完美但是我需要以某种方式在
Android 服务在 MVP 模式中应扮演什么角色？

我正在开发一个可以进行人类活动识别的 Android 应用程序它的工作原理基本上是这样的服务不断读取加速器数据并将识别的活动即步行跑步存储在数据库中用户可以看到所有已识别的活动ListView活动中访问数据库数据库中的每个用
容器 DIV 未扩展为包含具有绝对定位的 DIV

我想有一个简单的解决方案但我却找不到如果你看这一页 http salliannputman com test html您会看到只有标题具有灰色背景灰色背景由 container DIV 设置我想将其拉伸到页面的整个高度 contai
Laravel 验证器“required”对于空字符串也失败

我正在尝试拉拉维尔required我的代码中的验证器不幸的是即使是空字符串它也会失败我不希望它因空字符串而失败 validator Validator make array name gt array name gt required
什么时候在 CSS 中使用 `>` 符号？ [复制]

这个问题在这里已经有答案了可能的重复 CSS 规则中的 gt 是什么意思 https stackoverflow com questions 3225891 what does mean in css rules 我遇到过很多网站我看到
使用 NHibernate 同时插入父级和子级

我正在尝试保存插入带有列表子实体的父实体两个实体都使用 Guid 作为主键键不可为空并且数据库中未设置键关系保存不起作用抛出异常声称我正在尝试将 null 保存到子表中的父外键中我期望 nhibernate 为父对象创建一
SQL表和数据提取

我以前从未接触过 SQL 但我一直在阅读它我正在阅读的书中有一个练习可以帮助我入门我还在查找一个名为 W3School 的网站这本书告诉我尝试以下操作 Trades其结构如下 trade id 主键时间戳交易时间戳 securit
在 WPF DataGrid 中实现自定义复制和粘贴，该功能在其中没有行时有效

我需要实现自定义复制剪切粘贴以便在 WPF 应用程序中的网格之间复制数据不是文本或 CSV 使用标准 ApplicationCommands 并定义 CommandBinding 效果非常好但前提是 DataGrid 包含至少 1
Javascript 自定义 Array.prototype 干扰 for-in 循环

我试图用一个函数来扩展 Javascript 的对象类型该函数检索属于该对象的所有属性名称基本上是 PHP 的array keys 函数对关联数组起作用 Object prototype keys function var a for
如何将 django csrf 令牌直接嵌入到 HTML 中？

在我的 django 应用程序中我将 html 字符串存储在数据库中然后这些字符串将作为消息显示在用户的主页上其中一些消息包含表单但不是用模板语言编写的我无法插入 csrf 令牌从而破坏应用程序有没有办法直接从我正在编辑的
当元素没有 id 或名称时，如何在机器人框架中使用 Click Element 功能？

我目前正在机器人框架中使用 Selenium2Library 来自动化一些 Web 测试目前我在使用单击元素功能自动单击登录按钮时遇到问题这是我想使用的元素 a class transparentBtn loginLink ng
在iOS中绘制无限网格

我想知道在我正在构建的 iOS 应用程序上创建无限网格的最佳方法我使用 iPhone 上的内部硬件来收集真实世界的数据并构建向量我想直观地表示该网格上的矢量数据其行为类似于图表每个向量都表示为一条线每个新向量都附加到该网格上的前一
Delphi ClientDataset 只读

我目前正在测试指向 IB 数据库的 SQLConnection 一个 SQLDataset 其 SQLConnection 字段设置为上述字段将 2 中的 SQLDataset 作为其 Dataset 字段值的 DatasetProvi
reCaptcha 问题：请求的资源上不存在“Access-Control-Allow-Origin”标头，即使我在 angularJS 中添加标头，也始终显示

我在 google reCaptcha 中遇到一些问题验证码很好显示正常但是当我提交它时当我向以下地址发送 POST 请求时出现连接问题 https www google com recaptcha api verify https
如果其他两列中的值的组合是唯一的，则对变量求和[重复]

这个问题在这里已经有答案了我有发件人和收件人的数据以及发送的电子邮件数量一个玩具示例 senders lt c Mable Beth Beth Susan Susan receivers lt c Beth Mable Susan Ma

如果其他两列中的值的组合是唯一的，则对变量求和[重复]

如果其他两列中的值的组合是唯一的，则对变量求和[重复] 的相关文章

随机推荐

热门标签