R 中用于大型复杂调查数据集的方法？

2024-01-19

我不是调查方法学家或人口统计学家，但我是 Thomas Lumley 的 R 调查包的狂热粉丝。我一直在处理一个相对较大的复杂调查数据集，即医疗保健成本和利用项目 (HCUP) 国家急诊室样本 (NEDS https://www.hcup-us.ahrq.gov/nedsoverview.jsp）。正如医疗保健研究和质量局所描述的，这是“来自 30 个州 947 家医院的急诊就诊的出院数据，近似于美国医院急诊的 20% 分层样本”

2006 年至 2012 年的完整数据集包含 198,102,435 个观测值。我已将数据分组为 40,073,358 例与外伤相关的出院，其中包含 66 个变量。即使对这些数据运行简单的调查程序也需要非常长的时间。我尝试过使用 RAM（2013 年末的 Mac Pro，3.7GHz 四核，128GB（！）内存），使用多核 http://r-survey.r-forge.r-project.org/survey/html/surveyoptions.html有空的时候，子集化 http://r-survey.r-forge.r-project.org/survey/html/subset.survey.design.html，与一个内存不足的数据库管理系统 https://faculty.washington.edu/tlumley/tutorials/user-biglm.pdf like MonetDB https://github.com/ajdamico/asdfree/blob/da164016bfdd533b12f40b55045d7a6007a24d12/IPUMS%20International/download%20import%20design%20into%20monetdb.R。基于设计的调查程序仍然需要几个小时。有时要好几个小时。一些不太复杂的分析需要 15 个小时以上。我猜测大部分计算工作都与巨大的协方差矩阵有关？

正如人们所预料的那样，处理原始数据的速度要快几个数量级。更有趣的是，根据程序的不同，对于如此大的数据集，未经调整的估计值可能非常接近调查结果。（参见下面的示例）基于设计的结果显然更精确且更受欢迎，但几个小时的计算时间与几秒钟的计算时间对于增加的精度来说是一个不可忽视的成本。它开始看起来像是绕着街区走了很长一段路。

有没有人有这方面的经验？有没有办法优化大型数据集的 R 调查程序？也许更好地利用并行处理？贝叶斯方法是否使用INLA https://www.stat.washington.edu/research/reports/2011/tr583.pdf or 哈密顿量 http://www.stat.columbia.edu/~gelman/research/published/Si_et_al-BA14.pdf像斯坦这样的方法可能是解决方案吗？或者，当调查规模足够大且具有足够代表性时，一些未经调整的估计（尤其是相对指标）是否可以接受？

以下是一些未经调整的估计值近似调查结果的示例。

在第一个示例中，内存中的 svymean 花费了不到一个小时，内存不足则需要 3 个多小时。直接计算只需要不到一秒钟的时间。更重要的是，点估计（svymean 为 34.75，未调整为 34.77）以及标准误差（0.0039 和 0.0037）非常接近。

    # 1a. svymean in memory 

    svydes<- svydesign(
        id = ~KEY_ED ,
        strata = ~interaction(NEDS_STRATUM , YEAR),   note YEAR interaction
        weights = ~DISCWT ,
        nest = TRUE,
        data = inj
    )

    system.time(meanAGE<-svymean(~age, svydes, na.rm=T))
         user   system  elapsed
     3082.131  143.628 3208.822 
     > meanAGE 
           mean     SE
     age 34.746 0.0039 

    # 1b. svymean out of memory
    db_design <-
        svydesign(
            weight = ~discwt ,                                   weight variable column
            nest = TRUE ,                                        whether or not psus are nested within strata
            strata = ~interaction(neds_stratum , yr) ,           stratification variable column
            id = ~key_ed ,                                          
            data = "nedsinj0612" ,                               table name within the monet database
            dbtype = "MonetDBLite" ,
            dbname = "~/HCUP/HCUP NEDS/monet"  folder location
        )

    system.time(meanAGE<-svymean(~age, db_design, na.rm=T))
          user    system   elapsed
     11749.302   549.609 12224.233
     Warning message:
     'isIdCurrent' is deprecated.
     Use 'dbIsValid' instead.
     See help("Deprecated")
           mean     SE
     age 34.746 0.0039 


    # 1.c unadjusted mean and s.e.
    system.time(print(mean(inj$AGE, na.rm=T)))
     [1] 34.77108
        user  system elapsed
       0.407   0.249   0.653
      sterr <- function(x) sd(x, na.rm=T)/sqrt(length(x))  # write little function for s.e.
     system.time(print(sterr(inj$AGE)))
     [1] 0.003706483
        user  system elapsed
       0.257   0.139   0.394

svymean 与使用 svyby（近 2 小时）与 tapply（4 秒左右）应用于数据子集的平均值的结果之间存在类似的对应关系：

# 2.a svyby .. svymean
system.time(AGEbyYear<-svyby(~age, ~yr, db_design, svymean, na.rm=T, vartype = c( 'ci' , 'se' )))
     user   system  elapsed
 4600.050  376.661 6594.196 
        yr      age          se     ci_l     ci_u
 2006 2006 33.83112 0.009939669 33.81163 33.85060
 2007 2007 34.07261 0.010055909 34.05290 34.09232
 2008 2008 34.57061 0.009968646 34.55107 34.59014
 2009 2009 34.87537 0.010577461 34.85464 34.89610
 2010 2010 35.31072 0.010465413 35.29021 35.33124
 2011 2011 35.33135 0.010312395 35.31114 35.35157
 2012 2012 35.30092 0.010313871 35.28071 35.32114


# 2.b tapply ... mean
system.time(print(tapply(inj$AGE, inj$YEAR, mean, na.rm=T)))
     2006     2007     2008     2009     2010     2011     2012
 33.86900 34.08656 34.60711 34.81538 35.27819 35.36932 35.38931
    user  system elapsed
   3.388   1.166   4.529

system.time(print(tapply(inj$AGE, inj$YEAR, sterr)))
        2006        2007        2008        2009        2010        2011        2012
 0.009577755 0.009620235 0.009565588 0.009936695 0.009906659 0.010148218 0.009880995
    user  system elapsed
   3.237   0.990   4.186

调查和未调整结果之间的对应关系开始因绝对计数而崩溃，这需要编写一个吸引调查对象的小函数，并使用 Lumley 博士的一些代码来对计数进行加权：

# 3.a svytotal

system.time(print(svytotal(~adj_cost, svydes, na.rm=T)))
             total       SE
adj_cost 9.975e+10 26685092
     user    system   elapsed 
10005.837   610.701 10577.755 

# 3.b "direct" calculation

SurvTot<-function(x){
    N <- sum(1/svydes$prob)
    m <- mean(x, na.rm = T)
    total <- m * N
    return(total)
}

> system.time(print(SurvTot(inj$adj_cost)))
[1] 1.18511e+11
   user  system elapsed 
  0.735   0.311   0.989

结果更难以让人接受。尽管仍在调查程序确定的误差范围内。但同样，为了获得更精确的结果，3 小时与 1 秒相比，成本相当可观。

更新：2016 年 2 月 10 日

感谢塞维林和安东尼允许我借用你们的突触。抱歉延迟跟进，花了很少的时间来尝试您的建议。

Severin，您的观察是正确的，革命分析/MOR 构建对于某些操作来说更快。看起来它与 CRAN R 附带的 BLAS（“基本线性代数子程序”）库有关。它更精确，但速度较慢。因此，我使用允许多线程的专有（但 Mac 上免费）Apple Accelerate vecLib 优化了我的机器上的 BLAS（请参阅http://blog.quadrivio.com/2015/06/improved-r-performance-with-openblas.html http://blog.quadrivio.com/2015/06/improved-r-performance-with-openblas.html）。这似乎减少了一些操作时间，例如从 svyby/svymean 的 3 小时到 2 小时多一点。

安东尼在复制重量设计方法方面运气不佳。 type="bootstrap" withreplicates=20 运行了大约 39 小时，然后我退出了； type =“BRR”返回错误“无法在层中分割奇数个 PSU”，当我将选项设置为small =“merge”，large =“merge”时，它运行了几个小时，然后操作系统抛出了一个错误巨大的叹息，耗尽了应用程序内存； type="JKn" 返回错误“无法分配大小为 11964693.8 Gb 的向量”

再次非常感谢您的建议。现在，我将让自己在很长一段时间内零碎地进行这些分析。如果我最终想出更好的方法，我会发布在SO上

对于巨大的数据集，线性化设计（svydesign）比复制设计慢得多（svrepdesign）。检查其中的加权函数survey::as.svrepdesign并使用其中之一直接进行复制设计。您不能使用线性化来完成此任务。你可能甚至不使用会更好as.svrepdesign而是使用其中的函数。

举个例子，使用cluster=, strata=, and fpc=直接进入重复加权设计，参见

https://github.com/ajdamico/asdfree/blob/master/Censo%20Demografico/download%20and%20import.R#L405-L429 https://github.com/ajdamico/asdfree/blob/master/Censo%20Demografico/download%20and%20import.R#L405-L429

请注意，您还可以在此处查看每分钟的速度测试（带有每个事件的时间戳）http://monetdb.cwi.nl/testweb/web/eanthony/ http://monetdb.cwi.nl/testweb/web/eanthony/

还要注意的是replicates=参数几乎 100% 决定了设计的运行速度。因此，也许可以进行两种设计，一种用于系数（只需几次重复），另一种用于SE（具有您可以容忍的尽可能多的值）。以交互方式运行您的系数并优化白天所需的数字，然后让需要 SE 计算的更大进程在夜间运行

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

R 中用于大型复杂调查数据集的方法？的相关文章

在 R 中进行 Cox 回归后，将预测危险比列添加到数据帧中

在 R 中运行 Cox PH 回归后我需要在数据框中添加预测风险比的列数据框是面板数据其中 numgvkey 如果公司标识符和年龄是时间标识符您可以从此链接下载一小部分日期 https drive google com file
R - 正则表达式错误（PCRE 版本）

我正在尝试使用koRpus在 R 中在运行 RHEL6 的 Linux 服务器上进行词形还原上周当我安装了 MRO Microsoft R Open 3 2 3 时下面的代码效果很好 library koRpus lw c danci
可以明确声明包依赖项的版本吗？

我倾向于对我编写的代码进行明确而不是隐含的描述因此在成功创建自己的包之后我立即想到的下一件事是如何最好地确保代码的健壮性和可靠性其中一部分与我的包所依赖的包有关实际问题在这方面是否可以明确声明需要期望哪个版本的包依赖项我正
从网络源获取 R 中的数据作为数据框

我正在尝试使用 RCurl 包将一些空气污染背景数据作为 data frame 直接加载到 R 中该网站有 3 个下拉框用于在下载 csv 文件之前选择选项如下图所示我试图从下拉框中选择 3 个值并使用下载 CSV 按钮将数据作
R read_excel：libxls 错误：无法解析文件

我试图使用 readxl read excel 将 xls 文件读入 R 但它给出了以下错误 Error filepath data xls libxls error Unable to parse file 还尝试了 readxl exc
R 中的 NA 替换函数

我正在尝试替换矩阵中的 NA mat 零我在用着mat is na mat lt 0 当我有 18946 个变量的 94531 个观察值或更小的矩阵时效果很好但我在 22752 个变量的 112039 个观察值的矩阵上尝试它 R 显示
如何在不循环的情况下添加组ID？

我有数据框例如 productid ordernum p1 10 p2 20 p3 30 p4 5 p5 20 p6 8 我想添加另一列称为 groupid 它将产品按顺序分组在一起一旦 sum ordernum 达到 30 分配一个
如何使用 R 中带引号的字符值内的序列读取 CSV？

这是一个包含两个字符列的 CSV 文件 key value a 所有字符值都用双引号引起来并且有一个顺序在值之一内转义引号加分隔符我无法通过 read csv readr 中的 read csv 或 data table 中的 fr
dplyr，do()，从模型中提取参数而不丢失分组变量

R 帮助中关于 do 的示例略有不同 by cyl lt group by mtcars cyl models lt by cyl gt do mod lm mpg disp data coefficients lt models gt d
在 R 中绘制对数正态概率密度

我正在尝试在 R 中生成对数正态概率密度图其中包含 3 个不同的均值对数和标准差对数我尝试了以下方法但我的图表太丑了看起来一点也不好看 x lt seq 0 10 length 100 a lt dlnorm x meanlog 0
根据另一列中的键累积一列中的值时出现问题

我有一个看起来像这样的数据框我需要使用 PROJ ID 列中的字符串创建一个新的值列并形成 PROJ NAME 列中的值字符串这里提供的解决方案根据 r 中另一列的键累积一列中的值 https stackoverflow com q
逻辑回归/二项式的 glmnet 误差

当尝试将 glmnet 与 family binomial 配合以进行逻辑回归拟合时出现此错误 gt data lt read csv DAFMM HE16 matrix csv header F gt x lt as data fram
如何按 data.table 中的十分位数组计算统计数据

我有一个 data table 想按组计算统计数据 R set seed 1 R DT data table a rnorm 100 b rnorm 100 这些组应该定义为 R quantile DT a probs seq 1 9 1
比较 R 中的两个字符向量

我有两个 ID 字符向量我想比较这两个字符向量特别是我对以下数字感兴趣 A和B各有多少个ID 有多少个ID在A中但不在B中有多少个ID在B但不在A 我还想画维恩图以下是一些可以尝试的基础知识 gt A c Dog Cat Mouse
为什么这些数字不相等？

下面的代码显然是错误的有什么问题 i lt 0 1 i lt i 0 05 i 1 0 15 if i 0 15 cat i equals 0 15 else cat i does not equal 0 15 i does not eq
有没有一种简单的方法来判断存储在一个列表中的许多数据帧是否包含相同的列？

我有一个包含许多数据框的列表 df1 lt data frame A 1 5 B 2 6 C LETTERS 1 5 df2 lt data frame A 1 5 B 2 6 C LETTERS 1 5 df3 lt data frame
R：将 JSON 时间格式转换为 POSIX

我有一个 JSON 字符串并将其放入数据框中我能够做到这一点但我在使用 apply 函数之一将所有时间字符串转换为 POSIX 格式时遇到问题 See here https stackoverflow com questions 90
为什么 geom_boxplot 比基本箱线图识别更多异常值？

这是一个可重复的示例与基本箱线图相比最后一个治疗组又发现了一个异常值 dta lt structure list Treatment c A A A A A A A A A A A A A A A A B B B B B B B B B
ggplot2、R 中的单条形条形图

我有以下数据和代码 gt ddf var1 var2 1 aa 73 2 bb 18 3 cc 9 gt gt dput ddf structure list var1 c aa bb cc var2 c 73L 18L 9L Names
如何将 ggrough 图表另存为 .png

说我正在使用R包裹ggrough https xvrdm github io ggrough https xvrdm github io ggrough 我有这个代码取自该网页 library ggplot2 library ggroug

随机推荐

使用 python 的多处理池和映射函数测量进度

我用于并行 csv 处理的以下代码 usr bin env python import csv from time import sleep from multiprocessing import Pool from multiproces
使用预定义的过滤器过滤 android ListView

我想为 ListView 实现预定义的过滤器我的 ListView 将包含数字并且会有一个过滤器图标单击该图标应显示显示奇数显示偶数和显示全部等选项如何在单击过滤器图标时显示弹出对话框如果这是使用简单的弹出对话框实现
使用 EmacsClient 创建带有文本的新缓冲区

我有一个程序可以将文本发送到任何其他程序以进行进一步分析例如 sed grep 等我希望它将数据发送到 Emacs 并在那里进行分析我该怎么做呢 EmacsClient 默认采用文件名这是一个数据字符串而不是文件我真的不想创建和删
PowerShell 远程处理序列化和反序列化

用于从 PowerShell 序列化和反序列化对象由 PowerShell Remoting 执行的例程是否可用我想避免将对象写入磁盘使用 Export CliXML 并使用 Import CliXML 读回基本上我想获取反序列
Android WorkManager 不会触发两个计划工作线程之一

我的应用程序中安排了两个定期工作人员其中一名工作人员在 24 小时后重复另一名工作人员在 15 分钟后重复最初在全新安装时一切按预期工作但几天后我在 2 台设备共 5 台上遇到了问题 24 小时工作人员被正确触发但 15
在 Hyperledger Fabric Chaincode 中使用 cron 作业

我正在尝试在我的链代码中设置一个 cron 作业以 24 小时间隔运行我正在尝试使用以下库来设置调度程序 https github com jasonlvhit gocron https github com jasonlvhit goc
条件键控连接/更新并更新匹配的标志列

这与question https stackoverflow com questions 29658627 conditional binary join and update by reference using the data tab
CMake 无法确定目标的链接器语言 - C++

我正在尝试开发一个供私人使用的引擎我正在使用 CMake 因为我打算将来使其成为多平台但是开始出现一个我以前从未遇到过的错误我尝试将项目 IEngine 更改为项目 IEngine CXX 如堆栈溢出的其他问题中所述但错误仍然存在
执行 bash 文件时出现问题

你好呀我在学习结合 sh 文件和 PHP 时遇到了一些问题我创建了一个文件 test sh 并在该文件中调用了一个名为 test php 的 PHP 文件如果我双击 sh 文件那么它会完美运行但是当我尝试从终端运行它时我会收到
如何在进度条标签内添加标签？

我想在进度条标签中添加一个标签就像这个漂亮的例子一样假设蓝色是值红色是最大值我怎样才能在里面添加一个标签比如我的 35 使用CSSposition relative将文本移动到栏上对于短杆一个快速而肮脏的解决方案是 posit
是否可以使用 GraphQLList 从多个表中获取数据

在 GraphQL 中我们可以在 GraphQLList 中写入对象类型并获取所有字段我正在使用关联它正在连接两个表但我无法获取两个表的字段它只接受我在 GraphQLList 中编写的字段因为我想要数据列表这是代码 film
REST如何传递空路径参数？

我正在建造REST网络应用程序使用Netbean 7 1 1 Glassfish 3 1 2 我有2个网址 http myPage resource getall name get some data by name http myPage
gensim WikiCorpus 的问题 - 将 chunkize 别名为 chunkize_serial；（__mp_main__ 而不是 __main__？）

我对 Python 和一般编码都很陌生所以我似乎遇到了一个问题我正在尝试运行这段代码归功于马修梅奥整个事情都可以找到here https www kdnuggets com 2017 11 building wikipedia t
在 Canvas Fabric JS 元素上添加删除按钮

您好我想使用 FabricJS 在元素中添加删除按钮我有一个例子我尝试添加这部分代码但是当我调整图像大小时删除按钮不会保留在原位 http jsfiddle net wxao1on8 13 http jsfiddle net wx
如何通过 Google Cloud 调试在 Docker 容器内运行的 Nodejs 应用程序

我发现谷歌提供了一些指导方针如何在自定义运行环境上运行 Nodejs https cloud google com solutions nodejs 一切看起来都很好我正在设法在本地计算机上启动我的 Nodejs 应用程序gcloud p
ActiveMQ 警告：帧大小为 1 GB，大于允许的最大大小 100 MB

我正在尝试从旧版 jms 代理切换到 ActiveMQ 我无法弄清楚的一件事是日志中的警告每小时一次 WARN Transport Connection to tcp 127 0 0 1 38542 failed java io IOExc
如何在使用 pytest-repeat 时动态捕获测试内部的迭代次数

我使用 pytest repeat 多次执行我的 selenium 脚本我需要在执行过程中捕获迭代次数并利用它我探索了 pytest mark pytest collect 和 pytest Collector class Teston
在Python中向上移动一个目录

有没有一种简单的方法可以使用一行代码在 python 中上移一个目录类似的东西cd 在命令行中 gt gt gt import os gt gt gt print os path abspath os curdir C Python27
运行 play 框架时不支持 Major.minor 版本 51.0

我知道存在版本冲突只是希望有人告诉我如何解决它在之前的 stackoverflow 帖子中没有人告诉我们解决方案版本 Ubuntu 12 04 1 LTS java 1 6 0 24 OpenJDK javac 1 7 0 07 O
R 中用于大型复杂调查数据集的方法？

我不是调查方法学家或人口统计学家但我是 Thomas Lumley 的 R 调查包的狂热粉丝我一直在处理一个相对较大的复杂调查数据集即医疗保健成本和利用项目 HCUP 国家急诊室样本 NEDS https www hcup us ah

R 中用于大型复杂调查数据集的方法？

R 中用于大型复杂调查数据集的方法？ 的相关文章

随机推荐

热门标签

R 中用于大型复杂调查数据集的方法？的相关文章