使用 dplyr 按组获取序列中的第一行和最后一行[重复]

2024-01-07

我正在尝试使用dplyr按组获取重复值的第一行和最后一行。我这样做是出于效率原因，特别是为了使绘图速度更快。

这不是重复的从分组数据中选择第一行和最后一行 https://stackoverflow.com/questions/31528981/select-first-and-last-row-from-grouped-data因为我并不要求组中严格的第一行和最后一行；我要求一组中的第一行和最后一行by level（在我的例子中是 1 和 0）可能出现在多个块中。

这是一个例子。假设我想从 C 列中删除所有多余的 1 和 0，同时保持 A 和 B 完好无损。

df = data.frame(
    A = rep(c("a", "b"), each = 10),
    B = rep(c(1:10), 2),
    C = c(1,0,0,0,0,0,1,1,1,1,0,0,0,1,0,0,0,0,0,1))

A  B C
a  1 1
a  2 0
a  3 0
a  4 0
a  5 0
a  6 0
a  7 1
a  8 1
a  9 1
a 10 1
b  1 0
b  2 0
b  3 0
b  4 1
b  5 0
b  6 0
b  7 0
b  8 0
b  9 0
b 10 1

最终结果应该是这样的：

Using unique要么不删除任何内容，要么只取 1 或 0 之一，而不保留我想要实现的开始和结束质量。有没有办法在没有循环的情况下做到这一点，也许使用dplyr or forcats?

我觉得slice应该让你接近：

df %>%
  group_by(A,C) %>%
  slice(c(1, n()))

gives

      A     B     C
  <chr> <int> <dbl>
1     a     2     0
2     a     6     0
3     a     1     1
4     a    10     1
5     b     1     0
6     b     9     0
7     b     4     1
8     b    10     1

尽管这与您的预期结果不太相符。 n() 给出组中的最后一行。

编辑后，很明显您不会在已建立的任何组中查找值（这就是我以前的版本所做的）。您希望按 1 或 0 的运行进行分组。为此，您需要创建一列来检查 1/0 的运行是否已更改，然后创建一列来识别组。然后，slice将按照前面描述的方式工作。但是，由于您的某些运行只有 1 行长，因此我们只需要包括n()如果它大于 1（否则 1 行显示两次）。

df %>%
  mutate(groupChanged = (C != lag(C, default = C[1]))
         , toCutBy = cumsum(groupChanged)
         ) %>%
  group_by(toCutBy) %>%
  slice(c(1, ifelse(n() == 1, NA, n())))

Gives

       A     B     C groupChanged toCutBy
   <chr> <int> <dbl>        <lgl>   <int>
1      a     1     1        FALSE       0
2      a     2     0         TRUE       1
3      a     6     0        FALSE       1
4      a     7     1         TRUE       2
5      a    10     1        FALSE       2
6      b     1     0         TRUE       3
7      b     3     0        FALSE       3
8      b     4     1         TRUE       4
9      b     5     0         TRUE       5
10     b     9     0        FALSE       5
11     b    10     1         TRUE       6

如果 1 或 0 的游程必须保持在列中的水平内A，您还需要添加对列中更改的检查A来电。在此示例中，它没有效果（因此返回完全相同的值），但在其他情况下可能是理想的。

df %>%
  mutate(groupChanged = (C != lag(C, default = C[1]) |
                           A != lag(A, default = A[1]))
         , toCutBy = cumsum(groupChanged)
  ) %>%
  group_by(toCutBy) %>%
  slice(c(1, ifelse(n() == 1, NA, n())))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dplyr

使用 dplyr 按组获取序列中的第一行和最后一行[重复] 的相关文章

从 R 中的向量中选择所有可能的元组

我正在尝试用 R 编写一个程序当给定一个向量时将返回所有可能的tuples http en wikipedia org wiki Tuples该向量中的元素例如元组 c a b c c a b c 出租车 c a c c b c c
将命名参数列表传递给函数？

我想编写一个小函数来从适当的分布生成样本例如 makeSample lt function n dist params values lt makeSample 100 unif list min 0 max 10 values lt m
基于另一个数据集获取数据集的子集

假设我有一个数据集即 dat1 ID block plot SPID TotHeight 1 1 1 4 44 5 2 1 1 4 51 3 1 1 4 28 7 4 1 1 4 24 5 5 1 1 4 27 3 6 1 1 4 20
R 中具有稳健回归的异常值

我正在使用lmrobR 中的函数使用robustbase用于稳健回归的库我会把它用作 rob reg lt lmrob y 0 dat method MM control a1 当我想返回我使用的摘要时summary rob reg 稳健
如何在R中删除重复项

我有一个非常大的数据集如下所示 df lt data frame school c a a a b b c c c year c 3 3 1 4 2 4 3 1 GPA c 4 4 4 3 3 3 2 2 school year GPA
是否可以通过扫描从控制台读取而不回显字符？

这是一个示例函数 passwordEntry lt function cat Enter your password pwd lt scan n 1 what character quiet TRUE invisible pwd 并测试该功
如何从 R 运行带有特定模块的 perl 脚本？

我可以从终端运行 perl 脚本 myperlscript pl 没有任何问题但是如果我尝试从 RStudio 中运行相同的 perl 脚本则会出现以下错误 command lt myperlscript pl outputfile
在shiny中过滤传单地图数据

我在用传单地图设置这个闪亮的东西时遇到了麻烦我的原帖 https stackoverflow com questions 50111566 applying leaflet map bounds to filter data within
如何计算R中移动窗口内的平均斜率

我的数据集包含2个变量y 和 t 05s y 每 05 秒测量一次我正在尝试计算移动中的平均坡度20秒窗口即计算第一个 20 秒斜率值后窗口向前移动一个时间单位 05 秒并计算下一个 20 秒窗口在以下位置生成连续 20 秒斜率值
时间戳半小时窗口内字段的平均值

我的数据框有列名Timestamp es看起来像 Timestamp es 2015 04 01 09 07 42 31 2015 04 01 09 08 01 29 5 2015 04 01 09 15 03 18 5 2015 04 0
绘制点之间的所有线

我有以下 R 代码 x lt c 0 01848598 0 08052353 0 06741172 0 11652034 y lt c 0 4177541 0 4042247 0 3964025 0 4074685 d lt data fr
在 R 中绘制 Likert 变量的堆积条形图

假设我有一个如下所示的数据框 P Q1 Q2 1 1 4 1 2 2 3 4 3 1 1 4 其中的列告诉我哪个人相应地回答了问题 q1 q2 中的哪一个这些问题需要按照 4 分李克特量表进行回答例如批准表示 1 稍微批准表示 2
从命令行运行 R 代码 (Windows)

我在名为 analysis r 的文件中有一些 R 代码我希望能够从命令行 CMD 运行该文件中的代码而无需通过 R 终端并且我还希望能够传递参数并在我的代码中使用这些参数例如就像下面的伪代码 C gt execute r scri
R独特的列或行与NA无可比拟

有谁知道如果incomparables的论证unique or duplicated 曾经被实施过incomparables FALSE 也许我不明白它应该如何工作无论如何我正在寻找一个巧妙的解决方案以仅保留与另一列相同的唯一列或行
在 R 格子包中微调点图

我正在尝试为不同的数据集和不同的算法绘制一堆 ROC 区域我有三个变量方案指定所使用的算法数据集是正在测试算法的数据集以及 Area under ROC 我正在 R 中使用lattice库命令如下点图方案 Area und
Purrr::map_df() 删除 NULL 行

使用时purrr map df 我偶尔会传递一个数据框列表其中一些项目是NULL 当我做 map df 返回行数少于原始列表的数据框我想发生的事情是这样的map df calls dplyr bind rows 它忽略了NULL价值观
使用 Shiny 发布平行坐标图表时出现“错误：路径[1]="”：没有这样的文件或目录”

我有一个似乎很常见但我还没有找到解决方案的问题当尝试使用 rCharts Parcoords 发布 Web 应用程序时出现以下错误错误路径 1 没有这样的文件或目录奇怪的是该应用程序在我的笔记本电脑上运行得很好下面是我正在使用
ddply 和aggregate 之间的区别

有人可以通过以下示例帮助我了解聚合和 ddply 之间的区别数据框 mydat lt data frame first rpois 10 10 second rpois 10 10 third rpois 10 10 group c re
基于时间窗口的不规则时间序列的优化滚动函数

有没有办法使用 rollapply 来自zoo包或类似的东西优化功能 rollmean rollmedian等使用基于时间的窗口计算滚动函数而不是基于大量观察的函数我想要的很简单对于不规则时间序列中的每个元素我想计算一个具有 N
在 r 中的 group_by 之后建模后取消列表列的嵌套

我想对所有组进行线性回归group by 将模型系数保存在列表列中然后使用 unnest 扩展列表列这里我用的是mtcars以数据集为例注我想用do here becausebroom tidy 不适用于所有型号 mtcars gt

随机推荐

如何正确构建 KnockoutJS 应用程序

我想知道如何以正确的方式构建 KnockoutJS 应用程序官方文档几乎总是只使用一个 ViewModel 在仅实现了几个功能之后我的代码变得非常混乱并且来自面向对象的背景我对这样的架构非常过敏所以必须有更好的解决方案由于对 J
从 Java 调用 Mono 程序集

我有一个用 C 编写的大型文本校对框架我想编写一个使用这组库的 OpenOffice 扩展我首选的语言是 Java 因此我需要一种从 Java 访问 NET 程序集的方法在 Windows 和Linux 有没有办法从 Java 调用
程序化 MSIL 注入

假设我有一个像这样的有缺陷的应用程序 using System namespace ConsoleApplication1 class Program static void Main string args Console WriteLi
RecyclerView 问题：EditText 失去焦点

我已经放了一些EditText in RecyclerView因为我需要获得一些值实现是这样的
为什么没有换行符的情况下读取文件会更快？

在Python 3 6中如果存在换行符则读取文件需要更长的时间如果我有两个文件一个带有换行符另一个没有换行符但它们具有相同的文本那么带有换行符的文件将花费大约 100 200 的时间来读取我已经提供了一个具体的例子步骤 1
如何让 Brew 使用 +clipboard 安装 Vim？

我正在尝试弄清楚如何在使用 Vim 编辑的文件和 macOS 剪贴板之间进行复制和粘贴大多数说明都说首先使用 Homebrew 安装 Vim 因为它将在启用剪贴板选项的情况下安装 vim version 将显示 clipboard 然而
Objective-C 调用编译器不认为存在的选择器（即使我们知道它存在）

我在prepareForSegue方法中有这段代码 Get destination view UIViewController viewController segue destinationViewController See if it
TEXTMETRIC 结构和“Cambria Math”字体的问题

如果我运行下面的代码我会得到带有 cambria Math 字体的 tm 和 gm 结构的以下值 tm tmHeight 161 tm tmAscent 90 tm tmDescent 71 and gm gmBlackBoxY 14 中
如何获得 Java 反射来查找可调用函数？

我有一个界面ZipCodeServer哪个班级ZipCodeServerImpl实施我也有一个界面ZipCodeList哪个班级ZipCodeListImpl实施其中的功能之一是ZipCodeServer接口要求是 public voi
有没有办法提高opencv视频处理速度？ [复制]

这个问题在这里已经有答案了 out cv2 VideoWriter output file codec fps width height while video isOpened has frame image video read if
在 Java 中转置不同维度的二维数组

嘿我正在尝试转置一个二维数组其行列由用户输入我浏览过这个网站几乎所有我看到的建议都是针对方形数组 2x2 3x3 等这就是我到目前为止所拥有的 import java util Scanner public class Arra
window.location.href 与 History.pushState - 使用哪个？

我一直在自学react router 现在我想知道应该使用哪种方法来转到另一个页面根据这篇文章使用反应路由器以编程方式导航 https stackoverflow com questions 31079081 programmatica
编码/保护 javascript 代码的最佳方法是什么？ [复制]

这个问题在这里已经有答案了可能的重复如何混淆 JavaScript https stackoverflow com questions 194397 how can i obfuscate javascript 我想保护我的 Jav
org.hibernate.HibernateException：数据库未返回本机生成的标识值

我从 Hibernate 收到此异常构建会话工厂13 32 09 937 INFO SessionFactoryObjectFactory 105 未将工厂绑定到 JNDI 未配置 JNDI 名称线程 main org hibernate
如何使用 JMeter 进行负载测试 ASP.net Web 应用程序实现视图状态

我是一名 net 开发人员之前没有 JMeter 压力测试经验我正在尝试对我使用 JMeter 开发的 ASP net 网站进行负载测试使用 JMeter 的原因是它是一个具有很高知名度和可信度的开源工具我提到这个链接 http b
Bash 中有效标识符（例如函数、变量等）的规则是什么？

Bash 中标识符尤其是函数名和变量名的语法规则是什么我编写了一个 Bash 脚本并在 Ubuntu Debian Red Hat 5 和 6 甚至旧的 Solaris 8 机器上的各种 Bash 版本上对其进行了测试剧本运行得很
如何使用所有 xticks 绘制 pandas 多索引数据帧

我有一个像这样的熊猫数据框 content date 2013 12 18 12 30 00 1 2013 12 19 10 50 00 1 2013 12 24 11 00 00 0 2014 01 02 11 30 00 1 2014
有没有正确的方法在本地修改 Git 子模块？

在下面的示例中我想演示对 Git 子模块进行更改并在本地提交可能会导致非常糟糕的情况在这种情况下我想找到一个可行的解决方案除了答案伙计不要使用Git 子模块是邪恶的这个例子我首先创建两个存储库一个主项目及其子模块 for r
在 Shiny 中抑制数据表中的排序

我有一个闪亮的数据表但我想禁用排序并去掉列标题旁边的箭头如下图所示我使用以下代码尝试禁用它但没有成功 output ex lt renderDataTable inData options list bLengthChange 0
使用 dplyr 按组获取序列中的第一行和最后一行[重复]

这个问题在这里已经有答案了我正在尝试使用dplyr按组获取重复值的第一行和最后一行我这样做是出于效率原因特别是为了使绘图速度更快这不是重复的从分组数据中选择第一行和最后一行 https stackoverflow com quest

使用 dplyr 按组获取序列中的第一行和最后一行[重复]

使用 dplyr 按组获取序列中的第一行和最后一行[重复] 的相关文章

随机推荐

热门标签