dplyr sample_n 其中 n 是分组变量的值

2023-11-26

我有以下分组数据框，我想使用该功能dplyr::sample_n从此数据框中为每个组提取行。我想使用分组变量的值NDG每组中的行数作为从每组中提取的行数。

> dg.tmp <- structure(list(Gene = c("CAMK1", "GHRL", "TIMP4", "CAMK1", "GHRL", 
"TIMP4", "ARL8B", "ARPC4", "SEC13", "ARL8B", "ARPC4", "SEC13"
), GLB = c(3, 3, 3, 3, 3, 3, 10, 10, 10, 10, 10, 10), NDG = c(1, 
1, 1, 2, 2, 2, 1, 1, 1, 2, 2, 2)), class = c("tbl_df", "tbl", 
"data.frame"), row.names = c(NA, -12L), .Names = c("Gene", "GLB", 
"NDG"))

> dg <- dg.tmp %>% 
     dplyr::group_by(GLB,NDG)

> dg
Source: local data frame [12 x 3]
Groups: GLB, NDG

      Gene GLB NDG
1    A4GNT   3   1
2    ABTB1   3   1
3     AHSG   3   1
4    A4GNT   3   2
5    ABTB1   3   2
6     AHSG   3   2
7    AADAC  10   1
8  ABHD14B  10   1
9   ACVR2B  10   1
10   AADAC  10   2
11 ABHD14B  10   2
12  ACVR2B  10   2

例如，假设正确的随机选择，我想要代码

> dg %>% dplyr::sample_n(NDG)

输出：

Source: local data frame [6 x 3]
Groups: GLB, NDG

      Gene GLB NDG
1    A4GNT   3   1
2    A4GNT   3   2
3    ABTB1   3   2
4    AADAC  10   1
5    AADAC  10   2
6  ABHD14B  10   2

但是，它给出了以下错误：

Error in eval(expr, envir, enclos) : object 'NDG' not found

通过比较，dplyr::slice当我使用代码时给出正确的输出

> dg %>% dplyr::slice(1:unique(NDG))

It is稍微有点黑客使用unique然而，在这种情况下，代码

> dg %>% dplyr::slice(1:NDG)

返回以下警告消息

Warning messages:
1: In slice_impl(.data, dots) :
  numerical expression has 3 elements: only the first used
2: In slice_impl(.data, dots) :
  numerical expression has 3 elements: only the first used
3: In slice_impl(.data, dots) :
  numerical expression has 3 elements: only the first used
4: In slice_impl(.data, dots) :
  numerical expression has 3 elements: only the first used

显然是因为NDG正在被评估（在适当的环境中）c(1,1,1) or c(2,2,2)，因此1:NDG返回上述警告。

关于为什么我收到错误，我知道 Hadley 用于方法sample_n.grouped_df 的代码是

sample_n.grouped_df <- function(tbl, size, replace = FALSE, weight = NULL,
  .env = parent.frame()) {

  assert_that(is.numeric(size), length(size) == 1, size >= 0)
  weight <- substitute(weight)

  index <- attr(tbl, "indices")
  sampled <- lapply(index, sample_group, frac = FALSE,
    tbl = tbl, size = size, replace = replace, weight = weight, .env = .env)
  idx <- unlist(sampled) + 1

  grouped_df(tbl[idx, , drop = FALSE], vars = groups(tbl))
}

可以在相关的Github页面。因此我得到了错误，因为sample_n.grouped_df找不到变量NGD因为它没有在正确的环境中寻找。

因此，有没有一种巧妙的使用方法sample_n on dg获得

Source: local data frame [6 x 3]
Groups: GLB, NDG

      Gene GLB NDG
1    A4GNT   3   1
2    A4GNT   3   2
3    ABTB1   3   2
4    AADAC  10   1
5    AADAC  10   2
6  ABHD14B  10   2

对每组进行随机抽样？

一个可能的答案，但我不相信这是最佳答案：将数据框的行排列为dplyr::sample_frac（以及 1 的分数），然后切片所需的行数：

> set.seed(1)
> dg %>% 
      dplyr::sample_frac(1) %>%
      dplyr::slice(1:unique(NDG))

这给出了正确的输出。

Source: local data frame [6 x 3]
Groups: GLB, NDG

    Gene GLB NDG
1  A4GNT   3   1
2   AHSG   3   2
3  A4GNT   3   2
4 ACVR2B  10   1
5  AADAC  10   2
6 ACVR2B  10   2

我想如果有必要的话我可以编写一个函数来在一行中完成此操作。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dplyr

dplyr sample_n 其中 n 是分组变量的值的相关文章

将循环转换为并行计算的函数

我正在使用 R 编程语言我遇到这个问题我试图找出两个 shapefile 之间的成对交集即第一个 shapefile 中的每个多边形与第二个 shapefile 中的所有多边形相交的百分比我想我找到了解决这个问题的基本方法 Load
使用 R Shiny 从 XLConnect 下载 Excel 文件

有没有人尝试过使用 R Shiny 中的下载处理程序通过 XLConnect 下载新创建的 Excel 文件在 ui R 中有一行不起眼的行 downloadButton downloadData Download 在 server R
decompose() 的周期太少[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 错误看起来像这样 decompose
ggplot2可以在一个图例中分别控制点大小和线大小（线宽）吗？

一个使用的例子ggplot2绘制数据点组和连接每组均值的线并使用相同的映射aes for shape并为linetype p lt ggplot mtcars aes gear mpg shape factor cyl linetype
如何对同一列上的数据帧列表中的所有数据帧进行排序？

我有一个数据框列表dataframes list 举个例子我把dput dataframes list 在底部我想对列列表中的所有数据框进行排序enrichment 我可以对一个数据框进行排序 first dataframe lt da
.wav 文件长度/持续时间，无需读入文件

有没有办法提取有关 wav 文件长度持续时间的信息而无需在 R 中读取文件我有数千个这样的文件如果我必须阅读每个文件才能找到其持续时间那将需要很长时间 Windows 文件资源管理器为您提供了打开长度字段的选项并且您可以查看
如何从 R 运行带有特定模块的 perl 脚本？

我可以从终端运行 perl 脚本 myperlscript pl 没有任何问题但是如果我尝试从 RStudio 中运行相同的 perl 脚本则会出现以下错误 command lt myperlscript pl outputfile
重复测量引导统计数据，按多个因素分组

我有一个看起来像这样的数据框但显然还有更多行等 df lt data frame id c 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 cond c A A B B A A B B A A B B A A B B co
纵向序列数据的三次样条方法？

我有一个串行数据格式如下 time milk Animal ID 30 25 6 1 31 27 2 1 32 24 4 1 33 17 4 1 34 33 6 1 35 25 4 1 33 29 4 2 34 25 4 2 35 24
如何计算R中移动窗口内的平均斜率

我的数据集包含2个变量y 和 t 05s y 每 05 秒测量一次我正在尝试计算移动中的平均坡度20秒窗口即计算第一个 20 秒斜率值后窗口向前移动一个时间单位 05 秒并计算下一个 20 秒窗口在以下位置生成连续 20 秒斜率值
多功能测试仪替代 system.time

我已经看到我认为是这样使用了类似于 system time 的函数它可以同时评估多个函数的时间并输出一个输出我不记得它是什么并且用我正在使用的术语进行互联网搜索并没有得到我想要的响应有人知道我正在谈论的功能的名称位置吗你想要
选择 R 中的数据表中隐藏时（在绿色加号下方）列的显示顺序

Context 使用 DataTables 库制作交互式表格时当屏幕宽度对于列的数量和宽度来说太窄时列将隐藏在绿色号下我有一个非常宽的表格有 20 多列其中一些内容非常冗长因此某些列在所有屏幕宽度下总是隐藏的每次隐藏新列时
通过间接引用列来修改数据框中的某些值

我正在整理一些数据我们将失败的数据分类到垃圾箱中并按批次计算每个分类箱的有限产量我有一个描述排序箱的元表这些行按升序测试顺序排列一些排序标签带有非语法名称 sort tbl lt tibble tribble weight lab
将数据框中的每个 x 个字符拆分为字符串

我知道这里有一些关于每隔一段时间分割一个字符串的答案nth字符例如this one https stackoverflow com questions 23208490 split each character in r and this
绘制点之间的所有线

我有以下 R 代码 x lt c 0 01848598 0 08052353 0 06741172 0 11652034 y lt c 0 4177541 0 4042247 0 3964025 0 4074685 d lt data fr
使用 R 选择第一个非 NA 值

df lt data frame ID c 1 1 1 2 3 3 3 test c NA 5 5 6 4 NA 7 3 NA 10 9 我想创建一个名为 value 的变量它是每个单独 ID 测试的第一个非 NA 值对于只有NA的个体
使用 Shiny 发布平行坐标图表时出现“错误：路径[1]="”：没有这样的文件或目录”

我有一个似乎很常见但我还没有找到解决方案的问题当尝试使用 rCharts Parcoords 发布 Web 应用程序时出现以下错误错误路径 1 没有这样的文件或目录奇怪的是该应用程序在我的笔记本电脑上运行得很好下面是我正在使用
将阴影区域添加到五分位数之间的直方图中

All 我有一个包含 2 个直方图的图表其中我还绘制了代表第 20 40 60 和 80 个百分位数的线条下面的代码使用虚拟数据重现了类似的图表 data lt rbind data frame x rnorm 1000 0 1 g o
更改闪亮 R 中的默认浏览器

我在 RStudio 中使用 01 hello 虽然在 IE 中默认打开程序时它不会显示直方图但即使在 Chrome 中滑块也不起作用我无法滑动条形图并看到直方图中的变化如何更改 R 中的默认浏览器以便闪亮启动 Chrome 而不
文本挖掘 pdf 文件/词频问题

我正在尝试挖掘一篇具有丰富 pdf 编码和图表的文章的 pdf 我注意到当我挖掘一些 pdf 文档时我得到的高频词是 phi taeoe toe sigma gamma 等它与某些 pdf 文档配合良好但与其他文档配合使用时却得到这

随机推荐

Primefaces：所有ajax请求的默认oncomplete方法

我正在尝试为所有 ajax 请求配置一个 oncomplete 方法以便我可以处理会话超时我尝试添加以下脚本但它的工作方式与为 p ajax 元素设置 oncomplete 属性不同它不会在每次发出 Ajax 请求时执行 ajaxS
控制 NSSortDescriptor 在 Core Data 中对 nil 值进行排序的方式

鉴于以下情况NSSortDescriptor对于具有核心数据的字符串 NSSortDescriptor sortDescriptorWithKey series ascending true selector selector caseIn
将 cuda 与 gmp 链接

我正在尝试将 cuda 与 GNU 多精度库 gmp 一起使用当我将 mpf init 之类的 gmp 指令添加到设备代码中时出现以下编译器错误 tlgmp cu 37 error Calling a host function gmp
单选按钮和标签显示在同一行

为什么我的标签和单选按钮不会保持在同一行我该怎么办这是我的表格
如何在 Dapper.Net 中编写一对多查询？

我编写了这段代码来投影一对多关系但它不起作用 using var connection new SqlConnection connectionString connection Open IEnumerable
如何将 JavaScript 包含到页面标题 MVC4 [重复]

这个问题在这里已经有答案了可能的重复 ASP Net MVC 3 Razor 在 Head 标记中包含 js 文件我不想将大量 JS 放入某些布局中并且我需要对某些特定页面执行此操作我的意思是将一些 JS 包含到其标头中我已经尝试
GoogleJsonResponseException：使用 google apps 端点引擎后端未找到 404

我按照下面的教程进行操作 https developers google com eclipse docs running and debugging 2 0 这基本上为我现有的应用程序添加了 GAE 后端然后我尝试下面的示例在本地开发
“独特粒子归因”违规

我编写了以下简化的架构来验证我收到的一些 XML 文件
Chrome JavaScript 开发者控制台：是否可以在不换行的情况下调用 console.log() ？

我想使用 console log 来记录消息without每次调用 console log 后添加一个新行这可能吗不这是不可能的如果您希望将所有内容都放在一行中或者将输出放在其他地方例如另一个窗口则必须保留一个字符串并连接起
Selenium 和异步 JavaScript 调用

我对 Selenium 和 JavaScript 回调函数很陌生我有一个无法自己解决的大问题我需要使用 JavaScript 指定一个变量如果我使用 GoogleChrome 打开页面并使用控制台输入我的 JavaScript 代码
重大地点变更 - 我们有什么保证？

我目前正在编写一个移动 iOS 应用程序该应用程序使用 iOS 重要位置更改服务来管理大量地理围栏当我们从 CoreLocation 框架收到此消息时启用和禁用地理围栏苹果开发者网站上写道仅当设备位置发生重大变化例如 500 米或
在 Spring Boot 中发送多部分响应

我正在研究在 Spring Boot 中开发的 api 现在我有一个 API 我必须在其中发送包含一个二进制文件和 xml 的响应两者将由多部分边界分隔那么有什么办法可以做到这一点吗在 Spring Boot 中尝试按照多部分发送响
选择计数/重复项

我有一张包含所有美国邮政编码的表格每行包含邮政编码的城市和州名称我正在尝试获取出现在多个州的城市列表如果同一城市没有 X 个邮政编码这不会是问题所以基本上我只想将一个州的城市算作 1 而不是将城市州计数 7 次因为该城市州
使用 pymongo 在 mongodb 中按 ObjectId 搜索

我需要使用 pymongo 使用 python 搜索 ObjectId 但总是收到此错误有什么想法如何搜索吗 import pymongo from pymongo import MongoClient from pymongo impo
如何评估来自 stdin 的 PowerShell 脚本输入

我想在 PowerShell 中评估 StdIn 的内容如下所示 echo echo 12 powershell noprofile noninteractive command input iex Output echo 12 很遗憾
如何在 C# 应用程序启动时立即运行代码？

我已经将一些代码放在了公共内部MainWindow 但我一这样做就不断收到一些晦涩的 XAML 解析错误不是在我的计算机上而是在我尝试过的其他 3 台计算机上是否有一种在应用程序启动时立即运行代码的首选方法理论上是我希望它打电话回家
如果函数指针不需要 & 符号，为什么 boost::bind 需要一个？

我一直相信函数指针不需要符号然而我见过的每一个使用的例子boost bind显示一个并且我的编译器在大多数情况下如果省略它则会给出通常难以理解的错误消息 synchronize boost bind Device asyncU
是否可以通过 Chrome 扩展中的上下文菜单项调用内容脚本方法？

我正在尝试使用上下文菜单项来调用在内容脚本中编写的方法那可能吗正如我所尝试的那样上下文菜单只能在后端执行操作 E g A generic onclick callback function function genericOnClic
如何在 Linux UVC 驱动程序中启用 UVC_QUIRK_FIX_BANDWIDTH 怪癖？

我目前正在尝试运行 2webcams在 Wandboard 板上它们必须共享 USB 集线器问题是当前的驱动程序实现仅限 YUV 使 USB 集线器饱和最终我只能连接一台相机然而 UVC 驱动程序的实现有一个怪癖kind情况等
dplyr sample_n 其中 n 是分组变量的值

我有以下分组数据框我想使用该功能dplyr sample n从此数据框中为每个组提取行我想使用分组变量的值NDG每组中的行数作为从每组中提取的行数 gt dg tmp lt structure list Gene c CAMK1 GHR

dplyr sample_n 其中 n 是分组变量的值

dplyr sample_n 其中 n 是分组变量的值 的相关文章

随机推荐

热门标签

dplyr sample_n 其中 n 是分组变量的值的相关文章