分层抽样 - 观察不足

2023-12-13

我想要实现的是从每组中获取 10% 的样本(这是 2 个因素的组合 - 新近度和频率类别)。到目前为止我已经考虑过包裹sampling和功能strata()。这看起来很有希望,但我收到以下错误,并且很难理解错误消息以及错误所在或如何解决此问题。

这是我的代码:

> d[1:10,]
        date id_email_op recency frequecy r_cat f_cat
1  29.8.2011       19393     294        1     A     G
2  29.8.2011       19394     230        4     A     D
3  29.8.2011       19395     238       12     A     B
4  29.8.2011       19396     294        1     A     G
5  29.8.2011       19397     223        9     A     C
6  29.8.2011       19398     185        7     A     C
7  29.8.2011       19399     273        2     A     F
8  29.8.2011       19400      16        4     C     D
9  29.8.2011       19401     294        1     A     G
10 29.8.2011       19402       3        5     F     C
> table(d$f_cat,d$r_cat)

         A      B      C      D      E      F
  A    176    203    289    228    335    983
  B   1044    966   1072    633    742   1398
  C   6623   3606   3020   1339   1534   2509
  D   4316   1790   1239    529    586    880
  E   8431   2798   2005    767    817   1151
  F  22140   5432   3937   1415   1361   1868
  G 100373  18316  11872   3760   3453   4778
> as.vector(table(d$f_cat,d$r_cat))
 [1]    176   1044   6623   4316   8431  22140 100373    203    966   3606   1790   2798   5432
[14]  18316    289   1072   3020   1239   2005   3937  11872    228    633   1339    529    767
[27]   1415   3760    335    742   1534    586    817   1361   3453    983   1398   2509    880
[40]   1151   1868   4778
> s <- strata(d,c("f_cat","r_cat"),size=as.vector(ceiling(0.1 * table(d$f_cat,d$r_cat))), method="srswor")
Error in strata(d, c("f_cat", "r_cat"), size = as.vector(table(d$f_cat,  : 
  not enough obervations for the stratum 6

我实在看不出什么是层 6。函数在后台检查的条件是什么?我不确定尺寸参数设置是否正确。是的,我已经检查了采样包的文档:)

谢谢大家和


你总是可以自己做:

stratified <- NULL
for(x in 1:6) {
  tmp1 <- sample(rownames(subset(d, r_cat == "A" & f_cat == LETTERS[x])),round(nrow(d[r_cat == "A")*0.1))
  tmp2 <- sample(rownames(subset(d, r_cat == "B" & f_cat == LETTERS[x])),round(nrow(d[r_cat == "B")*0.1))
  tmp3 <- sample(rownames(subset(d, r_cat == "C" & f_cat == LETTERS[x])),round(nrow(d[r_cat == "C")*0.1))
  tmp4 <- sample(rownames(subset(d, r_cat == "D" & f_cat == LETTERS[x])),round(nrow(d[r_cat == "D")*0.1))
  tmp5 <- sample(rownames(subset(d, r_cat == "E" & f_cat == LETTERS[x])),round(nrow(d[r_cat == "E")*0.1))
  tmp6 <- sample(rownames(subset(d, r_cat == "F" & f_cat == LETTERS[x])),round(nrow(d[r_cat == "F")*0.1))
  tmp7 <- sample(rownames(subset(d, r_cat == "G" & f_cat == LETTERS[x])),round(nrow(d[r_cat == "G")*0.1))
  stratified <- c(stratified,tmp1,tmp2,tmp3,tmp4,tmp5,tmp6,tmp7)
}

进而...

d[stratified,]将是您的分层样本。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

分层抽样 - 观察不足 的相关文章

  • 有没有办法在 RStudio 中调试 RScript 调用?

    假设我从命令行运行 R 脚本 如下所示 Rscript prog R x y z 我想检查某一行的代码 目前 我无法在 RStudio 中以交互方式调试它 因为我不知道如何传递参数 由于它设计为从命令行运行 因此如何通过命令行 RStudi
  • 如何生成向量的所有组合[重复]

    这个问题在这里已经有答案了 假设我有 3 个绿球 2 个橙球和 8 个黄球 我想订购它们 鉴于所有相同颜色的球都是相同的 如何生成所有可能的序列 在 R 中 使用gregmisc 我可以 balls lt c orange orange g
  • R从列表中提取数据框,列名中没有前缀

    我在列表中放置了一个数据框 然后 当尝试将其提取回来时 我得到了该数据帧的所有以列表键为前缀的列名称 有没有办法完全按照最初传递的方式提取数据帧 cols lt c column1 Column2 Column3 df1 lt data f
  • 将列表中的列转换为 R 中的数据框

    我有使用 R 创建的以下列表 set seed 326581 X1 rnorm 10 0 1 Y1 rnorm 10 0 2 data data frame X1 Y1 lst lt replicate 100 df smpl lt dat
  • R:将 readRDS 应用于 .Rds 文件名的列表对象

    我有几个包含数据帧对象的 Rds 文件 我想对每个文件应用一个函数并将数据帧绑定到单个数据帧中 但是 当我尝试从文件名列表中读取多个 Rds 文件时 我收到错误 FUN X i 中的错误 从连接读取时出错 readRDS 不适用于列表吗 R
  • 错误:“rjags”的包或命名空间加载失败

    在终端的 conda 环境之一中 我能够成功安装包 rjags 但是 当我在该环境中运行 R 并运行库 rjags 时 出现以下错误 加载所需的包 coda 错误 rjags 的包或命名空间加载失败 rjags 的 loadNamespac
  • 在另一个 Rmd 中运行选定的块

    我已经在源 Rmd 文件中运行了分析 并且希望仅使用few来自源的块 我已经看到了一些关于从源 Rmd 中提取所有块的答案来自另一个 Rmd 中的 Rmd 文件的源代码 https stackoverflow com questions 4
  • R 更改小数位且不四舍五入

    gt signif 1 89 digits 2 1 1 9 我想要1 8 这有点笨拙 但它会起作用并保持所有数字 x lt 1 829380 trunc dec lt function x n floor x 10 n 10 n Resul
  • 将函数应用于 3d 数组的每一层,返回一个数组

    假设您有一个包含行 列和层的 3 维数组 A lt array 1 27 c 3 3 3 想象你有一个函数 它接受一个矩阵作为输入并返回一个矩阵作为输出 就像t 如何将该函数应用于数组的每一层 返回与第一层大小相同的另一个数组 我觉得我应该
  • 逻辑回归/二项式的 glmnet 误差

    当尝试将 glmnet 与 family binomial 配合以进行逻辑回归拟合时 出现此错误 gt data lt read csv DAFMM HE16 matrix csv header F gt x lt as data fram
  • 将数据从 R 导出到 Excel

    我试图将从 R 获得的一些结果导出到 Excel 中 但未成功 我尝试过以下代码 write table ALBERTA1 D ALBERTA1 txt sep t write csv ALBERTA1 ALBERTA1 csv your
  • 如何将此“for”循环转换为向量解

    这个问题与 将嵌入其他文本的长州名称转换为两个字母的州缩写 https stackoverflow com questions 25582518 convert long state names embedded with other te
  • glmnet 未从 cv.glmnet 收敛 lambda.min

    我跑了20倍cv glmnet套索模型以获得 lambda 的 最佳 值 但是 当我尝试重现结果时glmnet 我收到一个错误 内容如下 Warning messages 1 from glmnet Fortran code error c
  • R 中的字符串作为函数参数

    数据框chocolates列出了糖果的类型以及每种糖果的一组评级 ID sweetness filling crash snickers 0 67 0 55 0 40 milky way 0 81 0 53 0 56 我正在编写一个函数 它
  • 使用outer代替expand.grid

    我正在寻找尽可能快的速度并留在基地做该做的事expand grid做 我用过outer为过去类似的目的创建一个向量 像这样的东西 v lt outer letters LETTERS paste0 unlist v lower tri v
  • 如何计算嵌套函数中的粘合表达式?

    我正在尝试嵌套一个函数 该函数将两个字符串粘合在一起 该函数使用组合字符串来命名数据帧的列 然而 问题似乎是粘合表达式没有足够早地评估为字符串 我可以 并且应该 强制在将表达式作为参数传递给另一个函数之前对其进行求值吗 library ti
  • ggplot散点图中的图例问题

    我想使用 ggplot 创建显示方法比较数据的散点图 绘图应包含原始数据 理想线和带误差的拟合线 图例应显示理想线和拟合线的线型 线宽 线颜色 我可以获得大部分我想要的东西 但是图例存在以下问题 图例显示每种线型有 2 条线 为什么 如何解
  • 在 R 中使用 Huggingface Transformer 模型

    我正在尝试在 R 中使用不同的 Huggingface 模型 这是通过 reticulate 导入 Transformer 包来实现的 谢谢 https rpubs com eR ic transfoRmers https rpubs co
  • 如何匹配 R 中的所有匹配项?

    我有 1000 个名字的列表 说A 我还有另外 5 个名字的清单 说B 我想找出这5个名字出现在1000个号码列表中的第几行 例如 Amy 在 A 中可以出现 25 次 B 里有艾米 我想知道 Amy 出现在 A 中的哪些行 我以前使用过
  • R 中的 Websocket

    我设法在 R 中建立到 Mtgox websocket 的连接 规格如下 url https socketio mtgox com mtgox Currency USD https socketio mtgox com mtgox Curr

随机推荐

  • React/Node/Express 和 google OAuth 的 CORS/CORB 问题

    我有一个 React 应用程序 我正在尝试使用 OAuth 添加 Node Express MySQL 后端 我的 React 应用程序托管在 localhost 3000 上 而 Express 服务器位于 localhost 4000
  • 获取 SQLite 数据库并将其存储在对象数组中

    我正在查看 Android SDK 中的 Notes 应用程序示例 我想学习如何做 而不是使用 CursorAdapter 传递给 ListAdpater ListView 进行排序 我想知道如何自己处理数据 特别是在 ArrayList
  • matlab中子图中的分组scatterhist

    我正在尝试使用grouped scatterhistmatlab中的函数 subplot 2 2 1 scatterhist x y Group factor subplot 2 2 2 scatterhist x y Group fact
  • 如何使用SSE2/SSE3/SSE4处理24位3通道彩色图像?

    我刚开始使用SS2优化图像处理 但对于3通道24位彩色图像没有任何想法 我的pix数据是按BGR BGR BGR unsigned char 8 bi排列的 所以如果我想用SSE2 SSE3 SSE4的指令C C fun来实现Color2G
  • 仅应用jquery mobile 页面的一部分?

    我有一个示例页面 我们设计得很好 现在 我们只需要在页面的一部分中使用 jquery mobile 问题是 当我添加 jquery mobile 时 它 弄乱了我所有的 UI 内容 有没有办法只应用 jquery mobile 页面的一部分
  • 如何使用 Apache POI 设置数据透视表字段编号格式单元格

    我想设置数字格式单元格数据透视表的值字段余额总和 as 0 使用基于代码创建的数据透视表官方 POI 示例 CreatePivotTable 下面的代码做create and get CTPivotField pivotField 但如何设
  • Karate - 嵌套 JSON 对象模式验证导致 KarateException

    Feature Test Karate schema validation Scenario Test nested json objects def response read tasks json def schema ab strin
  • JSF 后退按钮 [重复]

    这个问题在这里已经有答案了 如何创建一个链接 将用户导航回一页 即与单击浏览器后退相同 Thanks 重点是 只需记住上一页的请求 URL 或 JSF viewId 以便您可以在输出 命令链接的 href 或值中使用它 有多种方法可以实现它
  • 如何获取包含的 FXML 的控制器?

    我有一个围绕 Java FXML 和 scenebuilder 构建的简单的两个选项卡应用程序 这些选项卡目前什么也不做 因为我在尝试加载它们时无法克服空指针异常 java 和 fxml 文件在 Netbeans 项目中的排列如下 主应用程
  • 如何在 GRid 视图的一列中显示两个属性 asp.net C#

    我有类 Person 有两个属性名字和姓氏 如果我将人员数组设置为 GridView 的数据源 如何在一列中显示名字和姓氏 Thanx 使用模板字段和 Eval 方法
  • 尽情玩耍!框架

    我们正在计划一个主要为移动应用程序提供内容的项目 但需要有一个网站 我的问题是 使用 Jersey 或 Restlet 为我们的移动应用程序开发 REST API 然后使用 Play 是否有意义 为网站提供服务 或者直接使用 Play 是否
  • 如何使用 iCloud 同步我的 sqlite 数据库和驻留在应用程序库文件夹中的文件夹中的图像

    我的要求是 我正在开发的应用程序在驻留在应用程序文件夹中的 Library 文件夹中创建一个名为 Private docmunets 的文件夹 该文件夹中有图像和一个 sqlite 文件 用于记录用户条目和图像 我必须启用我的应用程序 iC
  • 使用套接字进行 TCP 连接返回错误结果

    这是我用来扫描端口是否打开的代码 https stackoverflow com a 8957053 2203703 有人可以尝试修复它吗 似乎无法正常工作 即使端口关闭 代码也总是返回 成功连接 这是我用端口 80 测试过的 IP 列表
  • glutBitmapCharacter 位置文本错误

    我正在尝试在屏幕上绘制一个简单的字符串 覆盖 根据我在互联网上找到的信息 我是这样使用的 void write string text int x int y glRasterPos2i x y for int i 0 i lt text
  • R Bioconductor 安装错误 - 以“< DOCTYPE html PUBLI ...”开头的行格式错误

    我在 R 中安装 bioconductor 包时遇到问题 这是在 MacOSX 上 全新安装 R 2 15 并使用 bioconductor 1 4 4 文字记录如下 gt source http bioconductor org bioc
  • 自 Rails3 升级以来对空 params[] 哈希进行故障排除

    我有一个命名路由 可以在控制台中正确测试并显示应该包含在 params 中的 url title 但 params 始终为空 问题是 为什么 params 为空 我的期望是它应该有 params url title 我还删除了这条路线并使用
  • 致命:需要一次修改

    我的仓库有 3 次提交 我想压缩为一 I ran git rebase i HEAD 3并得到这个错误 fatal Needed a single revision invalid upstream HEAD 3 我能够跑git rebas
  • 创建一个包含 R 中多个矩阵的平均值的矩阵[重复]

    这个问题在这里已经有答案了 我有多个具有相同尺寸的矩阵 如下所示 gt A x y z 1 2 4 3 2 1 5 7 gt B x y z 1 4 3 3 2 1 8 7 gt C x y z 1 4 3 3 2 1 8 7 gt 如何创
  • VBA listobject不会添加行

    我有一个带有几张表的工作表 每张表都有两个表 listobjects 我还有一个用户窗体 允许用户在表中添加 编辑 删除行 这些表是静态的 这意味着它们永远存在并且永远不会被删除 它们位于同一位置并且永远不会移动 我还以不同的方式 通过索引
  • 分层抽样 - 观察不足

    我想要实现的是从每组中获取 10 的样本 这是 2 个因素的组合 新近度和频率类别 到目前为止我已经考虑过包裹sampling和功能strata 这看起来很有希望 但我收到以下错误 并且很难理解错误消息以及错误所在或如何解决此问题 这是我的