如何计算响应矩阵每一列的最小但快速的线性回归？

2024-03-18

我想计算普通最小二乘（OLS) R 中的估计不使用“lm”，这有几个原因。首先，考虑到数据大小在我的情况下是一个问题，“lm”还计算了很多我不需要的东西（例如拟合值）。其次，我希望能够在使用另一种语言（例如使用 GSL 的 C 语言）之前先在 R 中实现 OLS。

如您所知，model为：Y=Xb+E；与 E ~ N(0, sigma^2)。如下所述，b 是一个具有 2 个参数的向量，即均值 (b0) 和另一个系数 (b1)。最后，对于我要做的每个线性回归，我想要 b1 （效应大小）的估计值、其标准误差、sigma^2 （残差方差）和 R^2 （确定系数）的估计值。

这是我的data。我有 N 个样本（例如个体，N~=100）。对于每个样本，我有 Y 输出（响应变量，Y~=10^3）和 X 点（解释变量，X~=10^6）。我想单独处理 Y 输出，即。我想启动 Y 线性回归：一个用于输出 1，一个用于输出 2，等等。此外，我想使用解释变量 1 y 1：对于输出 1，我想在点 1 上对其进行回归，然后在点 2 上进行回归，然后......最后关于X点。（我希望它很清楚......！）

这是我的R code检查“lm”的速度与计算 OLS 的速度，我自己通过矩阵代数进行估计。

首先，我模拟虚拟数据：

nb.samples <-  10  # N
nb.points <- 1000  # X
x <- matrix(data=replicate(nb.samples,sample(x=0:2,size=nb.points, replace=T)),
            nrow=nb.points, ncol=nb.samples, byrow=F,
            dimnames=list(points=paste("p",seq(1,nb.points),sep=""),
              samples=paste("s",seq(1,nb.samples),sep="")))
nb.outputs <- 10  # Y
y <- matrix(data=replicate(nb.outputs,rnorm(nb.samples)),
            nrow=nb.samples, ncol=nb.outputs, byrow=T,
            dimnames=list(samples=paste("s",seq(1,nb.samples),sep=""),
              outputs=paste("out",seq(1,nb.outputs),sep="")))

下面是我自己使用的函数：

GetResFromCustomLinReg <- function(Y, xi){ # both Y and xi are N-dim vectors
  n <- length(Y)
  X <- cbind(rep(1,n), xi)  #
  p <- 1      # nb of explanatory variables, besides the mean
  r <- p + 1  # rank of X: nb of indepdt explanatory variables
  inv.XtX <- solve(t(X) %*% X)
  beta.hat <- inv.XtX %*% t(X) %*% Y
  Y.hat <- X %*% beta.hat
  E.hat <- Y - Y.hat
  E2.hat <- (t(E.hat) %*% E.hat)
  sigma2.hat <- (E2.hat / (n - r))[1,1]
  var.covar.beta.hat <- sigma2.hat * inv.XtX
  se.beta.hat <- t(t(sqrt(diag(var.covar.beta.hat))))
  Y.bar <- mean(Y)
  R2 <- 1 - (E2.hat) / (t(Y-Y.bar) %*% (Y-Y.bar))
  return(c(beta.hat[2], se.beta.hat[2], sigma2.hat, R2))
}

这是我使用内置“lm”的代码：

res.bi.all <- apply(x, 1, function(xi){lm(y ~ xi)})

这是我的自定义 OLS 代码：

res.cm.all <- apply(x, 1, function(xi){apply(y, 2, GetResFromCustomLinReg, xi)})

当我使用上面给出的值运行此示例时，我得到：

> system.time( res.bi.all <- apply(x, 1, function(xi){lm(y ~ xi)}) )
   user  system elapsed
  2.526   0.000   2.528
> system.time( res.cm.all <- apply(x, 1, function(xi){apply(y, 2, GetResFromCustomLinReg, xi)}) )
   user  system elapsed
  4.561   0.000   4.561

（当然，当增加 N、X 和 Y 时，情况会变得更糟。）

当然，“lm”具有“自动”单独拟合响应矩阵（y〜xi）的每一列的良好特性，而我必须使用“应用”Y次（对于每个yi〜xi）。但这是我的代码速度较慢的唯一原因吗？你们中有人知道如何改进这一点吗？

（很抱歉问了这么长的问题，但我真的试图提供一个最小但全面的示例。）

> sessionInfo()
R version 2.12.2 (2011-02-25)
Platform: x86_64-redhat-linux-gnu (64-bit)

看看fastLm()函数在犰狳 http://dirk.eddelbuettel.com/code/rcpp.armadillo.htmlCRAN 上的包。还有一个类似的fastLm() in RcppGSL http://dirk.eddelbuettel.com/rcpp.gsl.html在此之前 - 但你可能想要犰狳 http://arma.sf.net基于解决方案。我在旧演示文稿中（关于使用 R 的 HPC）有一些幻灯片显示了速度的提升。

另请注意帮助页面中关于比 X'X 的直接逆更好的“旋转”方法的提示，这对于简并模型矩阵可能很重要。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何计算响应矩阵每一列的最小但快速的线性回归？的相关文章

什么时候在“strsplit”中设置“perl=TRUE”不起作用（按预期或根本不起作用）？

我只是在尝试优化一些代码时做了一些基准测试并观察到strsplit with perl TRUE is faster比跑步strsplit with perl FALSE 例如 set seed 1 ff lt function paste
Rstudio 中的 Sweave — pdf 中没有显示任何图

这里是 Sweave Latex 新手我在生成常规函数输出时没有问题但绘图没有显示这是一个基本示例 documentclass article begin document SweaveOpts concordance TRUE lt
如何优化这个MySQL慢（非常慢）查询？

我有一个 2 GB 的 mysql 表包含 500k 行我在没有负载的系统上运行以下查询 select from mytable where name in n1 n2 n3 n4 bunch more order by salary
查找嵌套列表中元素的索引？

我有一个类似的列表 mylist lt list a 1 b list A 1 B 2 c list C 1 D 3 是否有一种无循环方法来识别元素的位置例如如果我想用 5 替换 C 的值并且在哪里找到元素 C 并不重要我可以这样
在 Shiny 中设置一个绘图缩放以匹配另一个绘图缩放

我正在尝试使用情节重排获取一个图的 x 轴缩放限制并将它们应用到 Shiny 中的另一个图到目前为止我可以从 plot1 x轴限制获取相关的plotly relayout数据将其转换从数字到日期并在绘制 plot2 之前将其提
有没有办法在 RStudio 中调试 RScript 调用？

假设我从命令行运行 R 脚本如下所示 Rscript prog R x y z 我想检查某一行的代码目前我无法在 RStudio 中以交互方式调试它因为我不知道如何传递参数由于它设计为从命令行运行因此如何通过命令行 RStudi
计算序列而无法存储值？

问题陈述 here http www spoj com problems EC SER 令 S 为无限整数序列 S0 a S1 b Si Si 2 Si 1 对于所有 i gt 2 你有两个整数 a 和 b 您必须回答有关序列中第 n 个元
可以明确声明包依赖项的版本吗？

我倾向于对我编写的代码进行明确而不是隐含的描述因此在成功创建自己的包之后我立即想到的下一件事是如何最好地确保代码的健壮性和可靠性其中一部分与我的包所依赖的包有关实际问题在这方面是否可以明确声明需要期望哪个版本的包依赖项我正
从网络源获取 R 中的数据作为数据框

我正在尝试使用 RCurl 包将一些空气污染背景数据作为 data frame 直接加载到 R 中该网站有 3 个下拉框用于在下载 csv 文件之前选择选项如下图所示我试图从下拉框中选择 3 个值并使用下载 CSV 按钮将数据作
R 中的 NA 替换函数

我正在尝试替换矩阵中的 NA mat 零我在用着mat is na mat lt 0 当我有 18946 个变量的 94531 个观察值或更小的矩阵时效果很好但我在 22752 个变量的 112039 个观察值的矩阵上尝试它 R 显示
将 JSON URL 转换为 R 数据帧

我在将 JSON 文件从 API 转换为 R 中的数据帧时遇到问题例如 URL 我尝试了 S O 的一些不同建议包括将json数据转换为R中的数据框 https stackoverflow com questions 28683769
Java 中旅行商问题的暴力算法

我正在学校的数学课上做一个项目我选择做旅行商问题这是我一直想进行更多研究的问题但是我的暴力求解算法遇到了问题请前往底部更新查看最新版本代码如果您知道旅行推销员问题是什么请跳过本段尽可能概括地说 TSP 是这样的您是一名推销
使用 R 的 flextable 包时，有没有办法将传递给 add_header_lines() 的字符串部分加粗

我正在使用我喜欢的 flextable 包为 Word 文档创建几个表格但是我在将表格标题中的部分文本加粗时遇到了一些麻烦例如我希望标题为 Table 1 我的表格标题的其余部分而不是表 1 我的表格标题的其余部分 I 找到这个
在函数内部调用 clusterApply 时，性能会下降

我遇到了一个奇怪的问题clusterApply 我已经能够尽可能地隔离它如下所示首先我从全局环境运行以下代码 require parallel cl lt makeCluster rep localhost 20 SOCK xl lt
如何更新条件公式？

让我直接进入示例考虑以下等式 frml lt formula y a b x z 使用这样的公式规范例如和AER ivreg 我想更新这个公式使其显示为 frml2 lt y a b c x z w 但是我不确定如何更新条件标志之前
dplyr，do()，从模型中提取参数而不丢失分组变量

R 帮助中关于 do 的示例略有不同 by cyl lt group by mtcars cyl models lt by cyl gt do mod lm mpg disp data coefficients lt models gt d
查找数据帧列表中同一列中的所有重复值并将其转换为 NULL

我有一个清单BELGIAN COAST list包含数百个数据帧 df1 df2 15 列 X 1000 行每个数据帧的最后一列称为Chemicals并包含一些字符例如Sulfate or Ammonia 但是这一列有很多行Chemic
添加边后更新最大流量

考虑我们有一个网络流量并使用 Edmond Karp 算法我们已经拥有网络上的最大流量现在如果我们向网络添加任意边具有一定容量更新最大流量的最佳方法是什么我正在考虑更新关于新边缘的残差网络并再次寻找增强路径直到找到新的最大
同一索引操作上的不同估计行？

简介和背景我必须优化一个简单的查询下面的示例重写几次后我认识到同一个索引操作的估计行数会根据查询的编写方式而有所不同最初该查询执行了聚集索引扫描因为生产中的表包含二进制列该表相当大大约 100 GB 并且全表扫描执行起来需
Gekko - 最佳调度的不可行解决方案，与 gurobi 的比较

我对 Gurobi 有点熟悉但转向 Gekko 因为后者似乎有一些优势不过我遇到了一个问题我将用我想象的苹果园来说明这一问题 5周的收获期 horizon T 5 就在我们身上我的非常微薄的产出将是 3 0 7 0 9 0 5

随机推荐

AdWords 链接创建期间出现 Google Analytics API 500 内部错误

我收到错误 code 500 message 出现内部错误每次我尝试通过 Analytics Management API 将 Google Analytics 链接到 AdWords 时都会出现异常代码非常简单 PHP 就像文档示例一
远程调试 Spring Boot 应用程序

我在 Spring Boot 中有一个简单的 dockerized Web 应用程序该应用程序编译正确容器构建良好没有错误该应用程序在 localhost 8080 上运行良好这是一个简单的 Hello World 现在我尝试使
显示顺风动画

我正在尝试学习如何使用 Tailwind 动画我正在绝望地尝试制作的动画是 Entering duration 200 ease out From opacity 0 scale 95 To opacity 100 scale 100 L
如何从通过 SQLCMD 运行的 SQL 代码有条件地退出 .BAT 文件

我有一个 bat Windows 命令文件其中包含 SQLCMD 和其他命令的调用当然 SQLCMD 正在将我的 T SQL 代码发送到 SQL Server 我想检测 SQL 代码中的某些条件并有条件地退出整个批处理文件我尝试过
使用struts 2表单标签编辑对象的ArrayList

我有 2 节课 Student and Course 两者都在其内部的属性上定义了所有 getter 和 setter 我尝试使用这两个类构建一个具有通用功能的 Web 应用程序例如在不同的 jsp 页面中编辑和添加学生我的学生可以注册
res/menu 和 res/xml 不存在

当我尝试在中创建新的菜单资源文件时res menu正如指南中所述该文件夹不存在既不是res xml 有人可以告诉我如何解决这个问题吗我尝试创建该文件夹但它不允许我这样做如果是在 android studio v2 1 1 中要创
如何将证书部署到 Azure 中的受信任人员存储？

如何将公钥证书部署到我的工作角色Trusted People store 我在用着PeerTrust对于 WCF Azure 中的自托管 TCP 服务 var creds new ServiceCredentials creds Clien
Spring MVC 4.0中JSON表单参数的自动转换

我正在尝试构建一个 Spring MVC 控制器它将接收带有 JSON 格式参数的 POSTed 表单并让 Spring 自动将其转换为 Java 对象请求内容类型为application x www form urlencoded
如何以可靠的方式写入/更新 Oracle blob？

我正在尝试在 blob 列中编写和更新 pdf 文档但我只能更新 blob 只写入比以前存储的数据更多的数据如果我尝试使用较小的文档数据更新 blob 列我只会得到损坏的 pdf 首先使用empty blob 函数初始化blob 列
将 3 列数据框转换为矩阵

我有一个数据框 df 例如 A John Sunday 6 John Monday 3 John Tuesday 2 Mary Sunday 6 Mary Monday 4 Mary Tuesday 7 df pandas DataFram
为什么这个 useEffect （第一个）不会在依赖项更改时运行？

export default function App as the useState runs before useEffect it means count is avaliable to use in the useEffect bu
如何将XAML插入RichTextBox？

存储在数据库中的XAML文本通过XmlReader读取XAML后如何在RichTextBox中显示其文本 StringReader stringReader new StringReader xamlString XmlReader xm
为什么 Visual Studio 中的 ClickOnce 不从依赖程序集中部署内容文件？

我有一个通过单击一次部署的智能客户端应用程序问题是我在依赖程序集中有内容文件这些文件没有显示在 Visual Studio 中的已发布应用程序文件对话框中这意味着每次部署时我都必须将应用程序构建输出目录中的所有内容文件复制到已发布目
是否可以通过检测屏幕触摸来将设备从睡眠状态（屏幕变暗）唤醒？

我想让 Android 设备从睡眠中唤醒或者通过检测对屏幕的触摸而不是单击任何按钮在屏幕变暗时手机在一定时间不活动后进入的状态在文档中我发现的唯一内容是 WindowManager LayoutParams 中的 FLAG TOUC
如何在 Groovy 中将字符串与模式匹配

我正在尝试确定一个简单的正则表达式是否与 Groovy 中的字符串匹配这是我在 gradle 中的任务我尝试用网上找到的两种不同的方法进行匹配但都不起作用它总是打印出 NO ERROR FOUND task aaa lt lt St
在本地开发带有全栈 (WAMP) 的 React

有没有办法在前端使用 React 和全栈服务器例如 WAMP 设置本地开发环境完美的情况是使用默认的 React Create App 设置不弹出脚本对 PHP 文件进行 AJAX 调用该文件将处理对 MySQL 数据库的查询问
C# WPF 设计器异常：动画对象无法用于为属性“Foreground”设置动画[重复]

这个问题在这里已经有答案了以下代码在运行时运行并完美运行但使设计器崩溃我不知道为什么
Django Haystack 通过 Elasticsearch 后端按距离排序，而不是 geo_point 字段错误

我正在使用 django 1 4 django haystack 2 0 和 Elasticsearch 0 19 1 我有一个这样的 SearchIndex from haystack import indexes from core m
角度 4 中的 titlecase 管道

Angular 4 引入了新的 titlecase 管道并用于将每个单词的第一个字母更改为大写示例如下 h2 ramesh rajendran titlecase h2 在打字稿代码中可能吗如何是的在 TypeScript 代码中
如何计算响应矩阵每一列的最小但快速的线性回归？

我想计算普通最小二乘 OLS R 中的估计不使用 lm 这有几个原因首先考虑到数据大小在我的情况下是一个问题 lm 还计算了很多我不需要的东西例如拟合值其次我希望能够在使用另一种语言例如使用 GSL 的 C 语言之前先在 R

如何计算响应矩阵每一列的最小但快速的线性回归？

如何计算响应矩阵每一列的最小但快速的线性回归？ 的相关文章

随机推荐

热门标签

如何计算响应矩阵每一列的最小但快速的线性回归？的相关文章