从数据帧中分层随机抽样

2024-04-21

我有一个格式为的数据框：

head(subset)
# ants  0 1 1 0 1 
# age   1 2 2 1 3
# lc    1 1 0 1 0

我需要根据年龄和 lc 创建带有随机样本的新数据框。例如，我想要来自age:1和lc:1的30个样本，来自age:1和lc:0的30个样本等。

我确实研究了随机抽样方法，例如；

newdata <- function(subset, age, 30)

但这不是我想要的代码。

我建议使用stratified从我的“splitstackshape”包中，或者sample_n来自“dplyr”包：

## Sample data
set.seed(1)
n <- 1e4
d <- data.table(age = sample(1:5, n, T), 
                lc = rbinom(n, 1 , .5),
                ants = rbinom(n, 1, .7))
# table(d$age, d$lc)

For stratified，您基本上指定数据集、分层列以及表示您想要从每个组中获得的大小的整数或表示您想要返回的分数的小数（例如，0.1 表示每个组中的 10%）。

library(splitstackshape)
set.seed(1)
out <- stratified(d, c("age", "lc"), 30)
head(out)
#    age lc ants
# 1:   1  0    1
# 2:   1  0    0
# 3:   1  0    1
# 4:   1  0    1
# 5:   1  0    0
# 6:   1  0    1

table(out$age, out$lc)
#    
#      0  1
#   1 30 30
#   2 30 30
#   3 30 30
#   4 30 30
#   5 30 30

For sample_n您首先创建一个分组表（使用group_by)，然后指定您想要的观测值数量。如果您想要比例采样，则应该使用sample_frac.

library(dplyr)
set.seed(1)
out2 <- d %>%
  group_by(age, lc) %>%
  sample_n(30)

# table(out2$age, out2$lc)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

Random

sampling

从数据帧中分层随机抽样的相关文章

使用 pracma::findpeaks 识别持续峰值

我的语法有问题peakpat内的选项findpeaks内的函数pramcaR 包 v 2 1 1 我使用的是 R 3 4 3 x64 Windows 我希望该函数能够识别可能有两个重复值的峰值并且我相信该选项peakpat这就是我能做到的
如何使用 R 计算成为列表中中位数的概率？

假设我有以下数据集其中显示了假设实验的每个状态的三个观察结果的列表 state lt c Iowa Minnesota Illinois outcome lt list c 5 11 11 c 3 12 8 c 9 14 2 dat lt
如何使用 usmap 标记数字而不是名称？

我知道 usmap 有一个选项label in plot usmap 我想标记一些数字而不是状态名称我想 usmap 中应该有与州质心坐标相关的数据但我不知道如何找到它如果我能得到坐标然后我可以用它来标记数字geom text 这
twitterR 和 ROAuth R 软件包安装

我在安装 CRAN 上的 twitteR 和 RAOuth 软件包时遇到一些问题我尝试了几种不同的方法在 Windows 下使用源代码在 Ubuntu 下使用 RStudio 我尝试了以下命令 sudo apt get install
R独特的列或行与NA无可比拟

有谁知道如果incomparables的论证unique or duplicated 曾经被实施过incomparables FALSE 也许我不明白它应该如何工作无论如何我正在寻找一个巧妙的解决方案以仅保留与另一列相同的唯一列或行
设置种子增强::随机

我想通过使用不同的种子数来重置随机序列运行此测试代码时 boost mt19937 gener 1 boost normal distribution lt gt normal 0 1 boost variate generator
是否有加权水库采样的算法？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案当数据流中的点具有相关权重时是否有一种算法可以执行水库采样 Pavlos Efraimidis 和 Paul Spirakis 的算
R 中的列乘以子字符串

假设我有一个数据框其中包含多个组件及其在多个列中列出的属性并且我想对这些列运行多个函数我的方法是尝试将其基于每个列标题中的子字符串但我无法弄清楚如何做到这一点下面是数据框的示例 Basket F Type 1 F Qty 1 F
将数据框中重叠的范围合并到唯一的组中

我有一个 n 行 3 的数据框 df lt data frame start c 178 400 983 1932 33653 end c 5025 5025 5535 6918 38197 group c 1 1 2 2 3 df sta
文本挖掘 pdf 文件/词频问题

我正在尝试挖掘一篇具有丰富 pdf 编码和图表的文章的 pdf 我注意到当我挖掘一些 pdf 文档时我得到的高频词是 phi taeoe toe sigma gamma 等它与某些 pdf 文档配合良好但与其他文档配合使用时却得到这
旋转 Markdown 的表格 pdf 输出

我想将 pdf 上的表格输出旋转 90 度我正在使用 Markdown 生成报告并kable循环显示表格如果可以的话我想继续使用kable因为还有很多其他依赖于它的东西我没有包含在这个 MWE 中这是一个简单的例子使用iris数据集
如何仅删除单括号并保留配对的括号

你好我亲爱的老师 R 用户朋友们我最近开始认真学习正则表达式最近我遇到了一种情况我们只想保留配对括号并省略未配对的这是我的样本数据 structure list t1 c Book Pg 1 Website Online Jou
纵向比较 R 中的值...并进行扭转

我有许多人在多达四个时间段进行的测试结果这是一个示例 dat lt structure list Participant ID c A A A A B B B B C C C C phase structure c 1L 2L 3L 4L
如何从 R 读取 PDF 元数据

我们很好奇有没有一种方法可以从 R 读取 PDF 元数据例如下面显示的信息通过搜索我对此无能为力 r pdf metadata在当前的问题库中非常欢迎任何指点我想不出纯 R 的方法来执行此操作但您可能可以安装您最喜欢的 PDF
read_html(url) 和 read_html(content(GET(url), "text")) 之间的区别

我正在看这个很棒的答案 https stackoverflow com a 58211397 3502164 https stackoverflow com a 58211397 3502164 解决方案的开头包括 library httr
R“错误：“}”中出现意外的“}”[重复]

这个问题在这里已经有答案了我有一个字符串变量对于缺少数据的情况它具有空值我想将空值重新编码为缺失而不是说空值我正在尝试编写一个循环来删除这些空值条目但我不断收到错误错误中出现意外的 for row in dat
以编程方式将字符串宽度值插入到 sprintf() 中

我正在尝试以编程方式将字符串宽度值插入到sprintf 格式期望的结果是 sprintf 20s hello 1 hello 但我想插入20在同一通话中即时进行因此它可以是任何号码我努力了 sprintf ds 20 hello 1
条件字体颜色 R Markdown

我无法找到一种方法来根据变量的值 gt 0 0 或 r setup include FALSE x lt 4 This is an R Markdown document r if x gt 0 textcolor red Markdown
任意列中包含字符串的子集行

我有一个如下所示的数据集 Col1 Col2 Col3 abckel NA 7 jdmelw njabc NA 8 jdken jdne 如何对数据集进行子集化使其仅保留包含字符串 abc 的行最终预期输出 Col1 Col2 Col3
如何使用 dplyr 独立过滤每列的行

我有以下内容 library tidyverse df lt tibble tribble gene colB colC a 1 2 b 2 3 c 3 4 d 1 1 df gt A tibble 4 x 3 gt gene colB c

随机推荐

Flash 点击时不打开链接

我用 Flash 创建了这个横幅我需要单击它来打开一个网页我使用了这个 Actionscript 3 0 代码 link btn addEventListener MouseEvent CLICK openurl function op
为什么无法使用 CentOS、plesk 9.2.1 和 tomcat 5.5 安装 solr 1.3.0？

好吧我只是通过他的托管提供商为我的客户设置了一个专用服务器他们在那里安装了 plesk 版本 9 2 1 并且该专用服务器的一个警告是如果我在控制面板之外即使用 SSH 执行任何任务他们不保证支持该软件组件这很好因为我宁愿使用
ScrollPane删除节点时跳转到顶部

我有一个ScrollPane含有一个TilePane显示图像每当我删除其中一张图像时ScrollPane跳回到顶部这在尝试删除多个图像时非常烦人有没有办法控制滚动行为我在 Windows 7 上运行此代码 import javafx
为什么net.DialTimeout一半的时候会超时？

这是我的测试代码我设置了6s超时但是程序只执行了3s 为什么 package main import net import time import fmt func main fmt Println time Now conn err
Android - 使用 Android 支持库时无法在 SearchWidget 中找到 TextView

我使用以下代码片段在 SearchView 小部件中查找 TextView int autoCompleteTextViewID getResources getIdentifier android id search src text n
查明字符串列表项是否以另一个列表中的另一个项目开头

我想循环遍历一个字符串列表并找出该列表中的项目是否以另一个列表中的项目之一开头所以我有类似的东西 List
在 Mac OS Lion 上使用 tmux 提示之前出现奇怪的空格

它刚刚发生在我的 Lion 系统上我正在使用 zsh 和 tmux 在 zsh shell 中正常 tmux 屏幕中的双倍空间我是否缺少 zsh 或 tmux 中的某些配置使用 u 选项启动 tmux 以实现 unicode 功能看
Gitlab CI 运行程序未构建或显示任何输出

昨天我从 Gitlab 7 x 升级到 8 0 4 几乎一切都很顺利我之前使用 CI 没有问题升级后必须迁移或重新开始我选择重新开始因为我只有一个项目我多次添加了一个新的 shell 运行程序尝试了 gitlab ci mult
方法控制器不存在。

所以我又使用了这个格式在我的routes php中我有 Route controller datatables HomeController PaymentsData gt payments data getIndex gt datata
使用 jQuery 查找文本字符串？

假设某个网页有一个字符串例如我想查找我是一个简单的字符串我将如何使用 JQuery 来解决这个问题 jQuery 有 contains 方法这是给您的一个片段上面的选择器选择包含目标字符串的任何元素 Foundin 将是一个包含任
ASP.NET MVC Razor 渲染额外空白

在 Asp net MVC 中 Razor 在文本块之间插入额外的空格我想以这种方式呈现一个列表 1 2 3 但得到 1 2 3 for int i 1 i lt 3 i
替换字符串中的多个字符 (XSLT)

我需要能够替换某些字符以便我可以将它们用作 CSS 类我有诸如类名称类名之类的字符串这些字符串不是有效的 CSS 类据我所知如何使用替换功能来替换多个字符 E g translate className would repla
如何在谷歌同意屏幕中添加徽标？

我已经在谷歌开发者控制台中创建了项目现在我想在同意屏幕中设置我的徽标我的计算机上有徽标同意屏幕上的徽标字段需要 URL 有什么方法可以在我的计算机上的同意屏幕上设置徽标吗我还尝试在谷歌驱动器上上传图像并将其共享链接放在徽标字段中您
使用 dom4j DOMDocument 提供 validator.validate(DOMSource) 在 java 1.6 中失败（不允许 xsi:noNamespaceSchemaLocation），在 1.5 中有效

使用 dom4j DOMDocument 提供 validator validate DOMSource 在 java 1 6 中失败不允许 xsi noNamespaceSchemaLocation 出现在根元素中在 1 5 中有效
“驱动程序未定义”Python/Selenium

我想在 Python 上使用 Selenium 但有一条警告消息 driver webdriver Chrome D Selenium Chrome chromedriver exe NameError 名称 driver 未定义我已经安
更改 Hibernate 继承中的子类型

我想在 Play Framework 中使用 Hibernate 建模三个类 Entity Inheritance strategy InheritanceType JOINED public class SupplyArea extend
使用 TSQL 解压缩值

如何解压缩存储过程中的 varbinary max 值我想在 TSQL 代码中实现或调用gunzip 算法最好不启用 CLR 调查 sp OACreatehttp msdn microsoft com en us library ms1
React 无法读取未定义的属性映射

我对反应很陌生我正在尝试从 Rails api 引入数据但我收到了错误TypeError Cannot read property map of undefined 如果我使用反应开发工具我可以看到状态如果我在控制台中使用它我可以
MVC 1 和 IIS 7 错误代码 4011

我有一个在 IIS 7 5 上运行的 MVC 1 应用程序一些操作完成后我得到了一个使用 System Web Routing RouteValueDictionary 作为第二个参数的 RedirectToRoute 调用基本上它
从数据帧中分层随机抽样

我有一个格式为的数据框 head subset ants 0 1 1 0 1 age 1 2 2 1 3 lc 1 1 0 1 0 我需要根据年龄和 lc 创建带有随机样本的新数据框例如我想要来自age 1和lc 1的30个样本来自a

从数据帧中分层随机抽样

从数据帧中分层随机抽样 的相关文章

随机推荐

热门标签

从数据帧中分层随机抽样的相关文章