根据第二列求和并有条件地计数

2024-04-30

我在试图解决这个看似简单的问题时感到沮丧。我有一个像这样的数据集（df）：

structure(list(Year = c(2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 
2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 2015L, 
2015L, 2015L, 2015L, 2015L, 2015L), Unknown = c(1L, 1L, 1L, 1L, 
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L
), Temp = c(21L, 21L, 21L, 23L, 23L, 21L, 21L, 22L, 21L, 23L, 
23L, 22L, 21L, 21L, 22L, 22L, 21L, 21L, 23L, 23L), Obs = structure(c(1L, 
1L, 2L, 1L, 1L, 1L, 1L, 2L, 1L, 1L, 1L, 2L, 1L, 1L, 2L, 2L, 1L, 
1L, 2L, 2L), .Label = c("mdk", "sde"), class = "factor"), State = structure(c(1L, 
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 
1L, 1L, 1L), .Label = "ma", class = "factor"), Zone = c(2L, 2L, 
2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 
2L, 2L), Segment = c(8L, 7L, 4L, 17L, 18L, 7L, 2L, 12L, 1L, 17L, 
18L, 12L, 9L, 7L, 13L, 11L, 8L, 9L, 17L, 18L), Subseg = c(1L, 
3L, 3L, 2L, 2L, 2L, 4L, 0L, 10L, 4L, 2L, 0L, 1L, 1L, 3L, 1L, 
2L, 2L, 1L, 1L), Wdir = structure(c(2L, 2L, 1L, 3L, 3L, 2L, 2L, 
1L, 2L, 3L, 3L, 1L, 2L, 2L, 1L, 1L, 2L, 2L, 1L, 1L), .Label = c("na", 
"ne", "nw"), class = "factor"), Wvel = structure(c(1L, 1L, 2L, 
1L, 1L, 1L, 1L, 2L, 1L, 1L, 1L, 2L, 1L, 1L, 2L, 2L, 1L, 1L, 2L, 
2L), .Label = c("5", "na"), class = "factor"), Clouds = structure(c(1L, 
1L, 3L, 1L, 1L, 1L, 1L, 3L, 1L, 1L, 1L, 3L, 1L, 1L, 3L, 3L, 1L, 
1L, 3L, 3L), .Label = c("1", "4", "na"), class = "factor"), Temp.1 = structure(c(1L, 
1L, 3L, 1L, 1L, 1L, 1L, 3L, 1L, 1L, 1L, 3L, 1L, 1L, 3L, 3L, 1L, 
1L, 3L, 3L), .Label = c("20", "25", "na"), class = "factor"), 
Species = structure(c(7L, 21L, 1L, 21L, 16L, 4L, 16L, 6L, 
1L, 17L, 5L, 7L, 5L, 1L, 1L, 6L, 7L, 7L, 24L, 5L), .Label = c("ABDU", 
                                                                                                      "ABDU", "ABDU", "ABDU", "ABDU", "CAGO", "CAGO", "CAGO", "CAGO", 
                                                                                                      "CAGO", "GOLD", "GOLD", "GOLD", "GOLD", "GOLD", "MERG", "MERG", 
                                                                                                      "MERG", "MERG", "MERG", "SCOT", "SCOT", "SCOT", "SCOT", 
                                                                                                      "SCOT", "SCOT", "SCOT"), class = "factor"), Count = c(5L, 
1L, 150L, 3L, 20L, 8L, 5L, 10L, 5L, 1L, 20L, 10L, 2L, 2L, 
80L, 40L, 1L, 1000L, 2L, 20L)), .Names = c("Year", "Unknown", 
"Temp", "Obs", "State", "Zone", "Segment", "Subseg", "Wdir", 
"Wvel", "Clouds", "Temp.1", "Species", "Count"), row.names = c(666L, 
614L, 2060L, 1738L, 1459L, 536L, 197L, 2467L, 98L, 1794L, 1449L, 
2464L, 696L, 483L, 2644L, 2350L, 686L, 844L, 2989L, 2934L), class = "data.frame")

标题看起来像这样：

 Year Unknown Temp Obs State Zone Segment Subseg Wdir Wvel
666  2015       1   21 mdk    ma    2       8      1   ne    5
614  2015       1   21 mdk    ma    2       7      3   ne    5
2060 2015       1   21 sde    ma    2       4      3   na   na
1738 2015       1   23 mdk    ma    2      17      2   nw    5
1459 2015       1   23 mdk    ma    2      18      2   nw    5
536  2015       1   21 mdk    ma    2       7      2   ne    5
 Clouds Temp.1 Species Count
666       1     20    CAGO     5
614       1     20    SCOT     1
2060     na     na    ABDU   150
1738      1     20    SCOT     3
1459      1     20    MERG    20
536       1     20    ABDU     8

除 dplyr 中的其他内容外，当我按段分组时，我希望将每个物种的总和作为新列。这是我尝试过多种变体的最终代码。

df_group = df %>%
  group_by(Segment) %>%
  summarise(temp = round(mean(Temp)),   
            WDir = round(mean(Wdir)),
            ABDU = sum(which(Species=="ABDU"),Count),
            CAGO = sum(which(Species=="CAGO"),Count),
            GOLD = sum(which(Species=="GOLD"),Count),
            MERG = sum(which(Species=="MERG"),Count),
            SCOT = sum(which(Species=="SCOT"),Count))

这就是我得到的（显示正确的格式）：

Segment temp WDir ABDU CAGO GOLD MERG SCOT
1       1   21    2    6    5    5    5    5
2       2   21    2    5    5    5    6    5
3       4   21    1  151  150  150  150  150
4       7   21    2   16   11   11   11   12
5       8   21    2    6    9    6    6    6
6       9   21    2 1003 1004 1002 1002 1002

格式和总体思路是我想要的，但数字并没有按照我想要的方式相加。我确信这很简单，但需要一些帮助！谢谢。

问题是它返回位置向量，但您没有使用它们来进行子集化。因此，您得到的总和是除计数变量之外的真实位置的总和。例如

x <- c("a", "b", "b")
count <- c(10, 11, 12)
sum(which(c("a", "b", "b") == "b"), count)
# 38 because it is 2 + 3 + 10 + 11 + 12

我相信你想要的是（或者至少一种编写方式）：

sum(ifelse(x == "b", count, 0))
# 23 because it is equal to 0 + 11 + 12

转换为 dplyr 语法，您的示例可能如下所示：

df_group = df %>%
  group_by(Segment) %>%
  summarise(temp = round(mean(Temp)),   
            WDir = round(mean(Wdir)),
            ABDU = sum(ifelse(Species=="ABDU", Count, 0L)),
            CAGO = sum(ifelse(Species=="CAGO", Count, 0L)),
            GOLD = sum(ifelse(Species=="GOLD", Count, 0L)),
            MERG = sum(ifelse(Species=="MERG", Count, 0L)),
            SCOT = sum(ifelse(Species=="SCOT", Count, 0L)))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

Sum

dplyr

根据第二列求和并有条件地计数的相关文章

正则表达式字符串中第一个和最后一个非点的位置

我希望找到字符串的第一个和最后一个非点元素的位置理想情况下我想这样做regex在基地R 我已经写过R解决问题的代码不过我对一个感兴趣regex解决方案感谢您的任何建议这是一个示例数据集和R代码以获得所需的结果此代码拆分字符串并使
在 R 中向散点图添加线条

如何向图表添加线条我做了以下 dat lt data frame xvar 1 20 rnorm 20 sd 10 yvar 1 20 rnorm 20 sd 10 zvar 1 20 rnorm 20 sd 10 plot dat 1
通过间接引用列来修改数据框中的某些值

我正在整理一些数据我们将失败的数据分类到垃圾箱中并按批次计算每个分类箱的有限产量我有一个描述排序箱的元表这些行按升序测试顺序排列一些排序标签带有非语法名称 sort tbl lt tibble tribble weight lab
将数据框中的每个 x 个字符拆分为字符串

我知道这里有一些关于每隔一段时间分割一个字符串的答案nth字符例如this one https stackoverflow com questions 23208490 split each character in r and this
Dendextend：关于如何根据定义的组为树状图的标签着色

我正在尝试使用一个名为 dendextend 的很棒的 R 包来绘制树状图并根据一组先前定义的组为其分支和标签着色我已阅读您在 Stack Overflow 中的答案以及 dendextend vignette 的常见问题解答但我仍然不
在 R 格子包中微调点图

我正在尝试为不同的数据集和不同的算法绘制一堆 ROC 区域我有三个变量方案指定所使用的算法数据集是正在测试算法的数据集以及 Area under ROC 我正在 R 中使用lattice库命令如下点图方案 Area und
ggplot2 geom_密度和geom_histogram在一个图中

如何制作一个所有条形加起来为 1 的直方图并在适合的上方添加一个密度层 set seed 1234 df lt data frame sex factor rep c F M each 200 weight round c rnorm 2
将数据框中重叠的范围合并到唯一的组中

我有一个 n 行 3 的数据框 df lt data frame start c 178 400 983 1932 33653 end c 5025 5025 5535 6918 38197 group c 1 1 2 2 3 df sta
将阴影区域添加到五分位数之间的直方图中

All 我有一个包含 2 个直方图的图表其中我还绘制了代表第 20 40 60 和 80 个百分位数的线条下面的代码使用虚拟数据重现了类似的图表 data lt rbind data frame x rnorm 1000 0 1 g o
如何从 R keras 中的类似生成器的数据中评估（）和预测（）

我有以下代码数据集可以下载here https www dropbox com s qjt5o31oyqj10m8 data tar gz dl 0 or here https www kaggle com c dogs vs cats
如何获得所有大于x且有位置的数字？

V lt c 1 3 2 4 2 3 1 X lt 3 pos lt V V X pos is 3 3 我需要的是所有 3 个的位置 I need 2 and 6 哪些职位是3 in V Use which pos lt which V 3
所有 x 轴标签未以 45 度显示

I m having the code as like below But I m not getting all the x axis labels and it is not displaying in 45 degree when I
如何从 R 中的 txt 文件读取矩阵？

我有一个带有矩阵的txt文件 Matrix txt 重要数字之间没有空格 0100 1001 1100 我想在 R 中将其作为矩阵读取我该怎么做我尝试使用 as matrix read table Matrix txt sep 但失败
R：如何获取该月的周数

我是 R 新手我想要该日期所属月份的周数通过使用以下代码 gt CurrentDate lt Sys Date gt Week Number lt format CurrentDate format U gt Week Number 3
如何在将两根柱子保持在一起的同时熔化柱子？

我有这种宽格式的数据我想将其转换为长格式 Cond Construct Line Plant Tube shoot weight shoot Tube root weight root 1 Standard NA NA 2 199 95
使用 template.docx 从 Shiny App 编织 Word 文档

我正在尝试使用 template docx 文件从闪亮的应用程序编写一个 Word 文档我收到以下错误消息 pandoc exe template docx openBinaryFile 不存在没有这样的文件或目录以下 3 个文件当前
如何将plot中的单变量列表图表转换为ggplot2格式？

我正在搜索但仍然找不到一个非常简单的问题的答案我们如何使用 R 中的 ggplot2 生成一个变量的简单线图我正在分析时间序列数据并且想要对图表进行更复杂的操作我认为如果我使用 ggplot2 代替会更好plot It works
在 Shiny 中的用户会话之间共享反应数据集

我有一个相当大的反应数据集该数据集是通过轮询文件然后按预定义的时间间隔读取该文件而派生的数据更新频繁需要不断重新加载诚然重新加载可以增量完成并附加到 R 中的现有对象但事实并非如此然而目前尽管会话中的数据相同但此操作是针对
线性判别分析图

如何将样本 ID 行号作为标签添加到此 LDA 图中的每个点 library MASS ldaobject lt lda Species data iris plot ldaobject panel function x y points
如何使用 dplyr 独立过滤每列的行

我有以下内容 library tidyverse df lt tibble tribble gene colB colC a 1 2 b 2 3 c 3 4 d 1 1 df gt A tibble 4 x 3 gt gene colB c

随机推荐

如何检索使用 Apache 的 mod_ldap 进行身份验证的用户的用户信息？

我使用 Apache 进行 LDAP 身份验证现在我需要知道如何获取使用 PHP 登录的用户有可能吗我是否必须在 PHP 中进行身份验证才能存储用户名如果您激活 mod authnz ldap 模块并按如下方式配置您的部分
当 S3 上的 ZIP 包更改时如何更新 aws_lambda_function Terraform 资源？

Zip 包不是由 Terraform 上传到 S3 Lambda 由 Terraform aws lambda function 资源配置当我在 S3 上更改 Zip 包并运行时terraform apply命令 Terraform 说没
在控制台应用程序中使用 swift 处理可可按键事件（按下按键）

好吧我正在尝试登录控制台输出按下的键我只是无法理解可可的结构无论是 Obj c 还是 swift 我不是这两种语言的大师但是这是我的代码 import Cocoa import Foundation import AppKit v
使用 git，如何在冲突期间“使用他们的”？

使用 git 如何执行使用他们的类型的分支合并命令该命令应该用原始版本覆盖我的本地版本要将您的 master 替换为 origin master git checkout master git branch M master old
SSDT-BI 可以与 SQL Server 2008 R2 一起使用吗？

有人可以告诉我在 Visual Studio 2012 或 2013 中开发的 SSIS 包是否可以在 2008r2 服务器上运行吗如果是 2008r2服务器上还需要安装其他软件吗这里不关心部署我只想通过 sql 代理作业在 2008
同位素重叠图像？

似乎它只发生在 Chrome 和 Safari 中而不是 Firefox 我将它与基础响应框架一起使用所以我不确定如何设置高度 Chrome Safari 中的图像之间似乎也没有足够的间距我该如何解决编辑这是一个小提琴http j
在 NuGet 包中添加解决方案级项目

我想通过 NuGet 包将解决方案文件夹和解决方案项不是项目添加到解决方案文件中我想这将通过 Powershell 来完成我浏览了 NuGet Powershell 和 EnvDTE 的文档但无法弄清楚我会使用哪些命令方法我
可以设计自定义推文按钮并利用数据属性吗？

我正在使用自己的样式创建自定义推文按钮但是当您选择自定义自己的样式时您似乎无法使用数据属性数据文本数据网址等仅当您使用使用小部件 javascript 的 Twitter 样式按钮时数据属性的使用才显得可用 http platf
从 Fortran 字符串中提取单个字符

我需要一个程序将基数 a 转换为基数 b 其中基数 a 和 b 可以是从 2 到 36 我的想法是使用字符串作为数字作为中介转换为基数 10 然后从基数 10 转换为基数 b 由于我是 Fortran 新手我不太理解函数和子字符串现在
如何从 ScheduledExecutorService 中删除任务？

我有一个ScheduledExecutorService定期执行一些不同的任务scheduleAtFixedRate Runnable INIT DELAY ACTION DELAY TimeUnit SECONDS 我也有不一样的Runn
使用 Underscore debounce 获取事件对象[React]

我正在尝试对我已设法做到的操作使用去抖但是我想将 e 作为参数传递但它不起作用我有什么办法可以做到这一点吗 constructor props context super props context this testing debo
Jupyter Notebook 上未显示结构化流输出

我有两个笔记本第一个笔记本正在使用 tweepy 从 twitter 读取推文并将其写入套接字其他笔记本正在使用 Spark 结构化流 Python 从该套接字读取推文并将其结果写入控制台不幸的是我没有在 jupyter 控制台上得到
Logstash 过滤器将“$epoch.$microsec”转换为“$epoch_millis”

我正在尝试转换表单中的时间戳字段 epoch microsec to epoch millis Example 1415311569 541062 gt 1415311569541 Logstash 似乎没有任何乘法的方法所以ts 100
WPF - 从 WPF 应用程序切换到 xbap

我有一个可用的 WPF 应用程序我希望看到它作为 xbap 运行我需要在 WPF 应用程序中更改哪些内容才能使其作为 xbap 运行当谈到可以以图形方式执行的操作时两者之间的唯一区别是 XBAP 无法使用 BitmapEffects
在 Kubernetes 中向 MySQL 添加另一个用户

这是我的MySQL apiVersion apps v1beta1 kind Deployment metadata name abc def my mysql namespace abc sk test labels project ab
jQueryUI：正确删除可拖动元素

我正在开发一个可视化编辑器它需要用户可以根据需要添加删除和拖动元素每个元素都是一个div使用 jQueryUI 实现可拖动新元素被附加到父元素上div代表工作空间每个元素内部都有一个用于将其删除的按钮这一切都很好我遇到的问题是
用于多部分/表单数据的 POSTMAN

如何将 POSTMAN 用于 Multipart form data 它具有自定义标头来测试我的控制器该控制器采用 2 个文件作为参数 public controller MultipartFile files POST HTTP 1 1
未捕获（承诺中）语法错误：获取函数中出现意外的标记'

我有几个结构如下的 JSON 文件我们称之为 info json data title Job company Company past fulltime Former Company intern Women IT Priority 5
Joomla：在组件中编写和调用辅助函数

初出茅庐的 Joomla PHP 开发人员在了解如何做到这一点时遇到了困难我发现搜索的所有内容都是旧版本的 Joomla 或其他框架因此第一次时一切都很混乱我想要一个可以从组件中的任何位置调用的辅助函数基本上它需要一个用户 ID
根据第二列求和并有条件地计数

我在试图解决这个看似简单的问题时感到沮丧我有一个像这样的数据集 df structure list Year c 2015L 2015L 2015L 2015L 2015L 2015L 2015L 2015L 2015L 2015L 20

根据第二列求和并有条件地计数

根据第二列求和并有条件地计数 的相关文章

随机推荐

热门标签

根据第二列求和并有条件地计数的相关文章