仅使用移动窗口中的先前值的线性回归

2024-02-27

我有一个巨大的数据集，想要在 60 个窗口上执行滚动线性回归。但是，我希望线性回归只考虑 60 个先前的值。

我的 Dataframe DF 包含以下列：

Date          Company   Y     X1   X2
01.01.2015    Mill     0.13   -1    -3
01.02.2015    Mill     0.16   1    5 
01.03.2015    Mill     0.83   3    4
01.04.2015    Mill     -0.83  23   4
01.01.1988    Hall    0.23    1    3
01.02.1988    Hall    0.24    23   2
01.03.1988    Hall    0.78    19   -9
01.04.1988    Hall    0.73    4    12
01.05.1988    Hall    0.72    5    12
01.11.2008    Jopo    0.12    0.9  32
01.12.2008    Jopo    0.13    10   32
01.01.2009    Jopo    0.32    0.2  10
01.02.2009    Jopo    0.32    2    -1

我有数千家公司以及每家公司几个月的数据。必须对公司的每个月进行回归，滚动窗口为该特定公司前 60 个月。

在给定的示例中，假设滚动窗口仅为 3，我希望 Mill 公司使用 2015 年 1 月 1 日至 2015 年 1 月 1 日的数据进行 2015 年 4 月 1 日的回归。对于公司 Hall，我想要 1988 年 4 月 1 日和 05 月 1 日的回归，对于 Jopo，我想要 2009 年 2 月 1 日的回归。

理想情况下，结果将与公司和日期一起粘贴到新的数据框架中，因为我必须继续使用这些数据并对其进行更多分析。

以下代码应该可以解决滚动回归的问题，但是它不使用之前的 60 个日期，而是使用 59 个日期，并且还包含当前日期：

图书馆（动物园）

rolled <- function(df) {                                    
    rollapply(df, width = 60,
        FUN = function(z) coef(lm(Y ~ X1+X2, data = as.data.frame(z))),
        by.column = FALSE, align = "right"
)
}

以下代码根据公司名称进行回归，因为我想对每个单独的公司进行回归，独立于其他公司。

Test <- do.call("rbind", by(DF[c("Y", "X1", "X2")], DF[c( "Name")], rolled))

如何合并仅使用 60 个先前值进行回归？也许有人知道如何在结果中显示“公司”和“日期”？感谢您的帮助！

Assume DF正如最后的注释中重复给出的。使用by分开DF进入公司行并使用匿名函数应用rollapplyr。注意rollapplyr可以为width一个列表参数，其中包含要使用的位置的偏移量。例如，list(-seq(3))表示使用前 3 行（如问题中建议的那样），但不使用当前行（位置为 0）。

library(zoo)

# w <- 60    
w <- 3
Coef <- function(x) coef(lm(as.data.frame(x)))
do.call("rbind", by(DF, DF$Company, function(x) 
    cbind(x, rollapplyr(x[3:5], list(-seq(w)), Coef, fill = NA, by.column = FALSE))))

giving:

              Date Company     Y   X1 X2 (Intercept)         X1         X2
Hall.5  01.01.1988    Hall  0.23  1.0  3          NA         NA         NA
Hall.6  01.02.1988    Hall  0.24 23.0  2          NA         NA         NA
Hall.7  01.03.1988    Hall  0.78 19.0 -9          NA         NA         NA
Hall.8  01.04.1988    Hall  0.73  4.0 12     0.37711 -0.0017480 -0.0484553
Hall.9  01.05.1988    Hall  0.72  5.0 12     1.30333 -0.0433333 -0.0333333
Jopo.10 01.11.2008    Jopo  0.12  0.9 32          NA         NA         NA
Jopo.11 01.12.2008    Jopo  0.13 10.0 32          NA         NA         NA
Jopo.12 01.01.2009    Jopo  0.32  0.2 10          NA         NA         NA
Jopo.13 01.02.2009    Jopo  0.32  2.0 -1     0.41104  0.0010989 -0.0091259
Mill.1  01.01.2015    Mill  0.13 -1.0 -3          NA         NA         NA
Mill.2  01.02.2015    Mill  0.16  1.0  5          NA         NA         NA
Mill.3  01.03.2015    Mill  0.83  3.0  4          NA         NA         NA
Mill.4  01.04.2015    Mill -0.83 23.0  4     0.21611  0.2994444 -0.0711111

你也可以尝试这个：

library(broom)
fun <- function(x) unlist(tidy(lm(as.data.frame(x)))[, -1]) 
do.call("rbind", by(DF, DF$Company, function(x) 
 cbind(x, rollapplyr(x[3:5], list(-(seq(w))), fun, fill = NA, by.column = FALSE))))

这使：

              Date Company     Y   X1 X2 estimate1    estimate2    estimate3
Hall.5  01.01.1988    Hall  0.23  1.0  3        NA           NA           NA
Hall.6  01.02.1988    Hall  0.24 23.0  2        NA           NA           NA
Hall.7  01.03.1988    Hall  0.78 19.0 -9        NA           NA           NA
Hall.8  01.04.1988    Hall  0.73  4.0 12 0.3771138 -0.001747967 -0.048455285
Hall.9  01.05.1988    Hall  0.72  5.0 12 1.3033333 -0.043333333 -0.033333333
Jopo.10 01.11.2008    Jopo  0.12  0.9 32        NA           NA           NA
Jopo.11 01.12.2008    Jopo  0.13 10.0 32        NA           NA           NA
Jopo.12 01.01.2009    Jopo  0.32  0.2 10        NA           NA           NA
Jopo.13 01.02.2009    Jopo  0.32  2.0 -1 0.4110390  0.001098901 -0.009125874
Mill.1  01.01.2015    Mill  0.13 -1.0 -3        NA           NA           NA
Mill.2  01.02.2015    Mill  0.16  1.0  5        NA           NA           NA
Mill.3  01.03.2015    Mill  0.83  3.0  4        NA           NA           NA
Mill.4  01.04.2015    Mill -0.83 23.0  4 0.2161111  0.299444444 -0.071111111
        std.error1 std.error2 std.error3 statistic1 statistic2 statistic3
Hall.5          NA         NA         NA         NA         NA         NA
Hall.6          NA         NA         NA         NA         NA         NA
Hall.7          NA         NA         NA         NA         NA         NA
Hall.8         NaN        NaN        NaN        NaN        NaN        NaN
Hall.9         NaN        NaN        NaN        NaN        NaN        NaN
Jopo.10         NA         NA         NA         NA         NA         NA
Jopo.11         NA         NA         NA         NA         NA         NA
Jopo.12         NA         NA         NA         NA         NA         NA
Jopo.13        NaN        NaN        NaN        NaN        NaN        NaN
Mill.1          NA         NA         NA         NA         NA         NA
Mill.2          NA         NA         NA         NA         NA         NA
Mill.3          NA         NA         NA         NA         NA         NA
Mill.4         NaN        NaN        NaN        NaN        NaN        NaN
        p.value1 p.value2 p.value3
Hall.5        NA       NA       NA
Hall.6        NA       NA       NA
Hall.7        NA       NA       NA
Hall.8       NaN      NaN      NaN
Hall.9       NaN      NaN      NaN
Jopo.10       NA       NA       NA
Jopo.11       NA       NA       NA
Jopo.12       NA       NA       NA
Jopo.13      NaN      NaN      NaN
Mill.1        NA       NA       NA
Mill.2        NA       NA       NA
Mill.3        NA       NA       NA
Mill.4       NaN      NaN      NaN
>

选择

另一种可能性是使用宽度w+1然后删除最后一个组件。

# w <- 60    
w <- 3 
Coef1 <- function(x) coef(lm(as.data.frame(head(x, -1))))
do.call("rbind", by(DF, DF$Company, function(x) 
    cbind(x, rollapplyr(x[3:5], w+1, Coef1, fill = NA, by.column = FALSE))))

公司中的行数少于 w+1

如果公司的行数少于 w+1，请尝试此操作。它使用partial=TRUE的论证rollapplyr计算lm行数和修改量较少Coef因此，它将继续工作：

# w <- 60    
w <- 3
Coef <- function(x) coef(lm(as.data.frame(matrix(x, c(nrow(x), 1)))))
do.call("rbind", by(DF, DF$Company, function(x) cbind(x, 
  rollapplyr(x[3:5], list(-seq(w)), Coef, partial = TRUE, by.column = FALSE))))

Note: Input DF is:

Lines <- "Date          Company   Y     X1   X2
01.01.2015    Mill     0.13   -1    -3
01.02.2015    Mill     0.16   1    5 
01.03.2015    Mill     0.83   3    4
01.04.2015    Mill     -0.83  23   4
01.01.1988    Hall    0.23    1    3
01.02.1988    Hall    0.24    23   2
01.03.1988    Hall    0.78    19   -9
01.04.1988    Hall    0.73    4    12
01.05.1988    Hall    0.72    5    12
01.11.2008    Jopo    0.12    0.9  32
01.12.2008    Jopo    0.13    10   32
01.01.2009    Jopo    0.32    0.2  10
01.02.2009    Jopo    0.32    2    -1"
DF <- read.table(text = Lines, header = TRUE, as.is = TRUE)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

linearregression

仅使用移动窗口中的先前值的线性回归的相关文章

R 脚本自动化时的不同结果

以下命令对 pdf 文件执行 Ghostscript 这pdf file变量包含该 pdf 的路径 bbox lt system paste C gs gs8 64 bin gswin32c exe sDEVICE bbox dNOPAUS
如何让 print() 将参数传递给 R 中用户定义的打印方法？

我在 R 中定义了一个 S3 类它需要自己的打印方法当我创建这些对象的列表并打印它时 R 按其应有的方式对列表中的每个元素使用我的打印方法我想对打印方法实际显示的数量进行一些控制因此我的类的 print 方法需要一些额外的参数但
如何获得 STAN 中最大似然估计的标准误差？

我在 Stan 中使用最大似然优化但不幸的是optimizing 函数不报告标准错误 gt MLb4c lt optimizing get stanmodel fitb4c data win data init inits STAN OP
R中添加水印

我在用magickR中的库我想在一些图片上添加水印 I used image annotate功能如下 img lt image read C Users Maydin Desktop manzara png image annotate
decompose() 的周期太少[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 错误看起来像这样 decompose
如何提取与 R 中主题 ID 列表匹配的行？

我有一个包含许多主题 ID 的数据框每个主题都有重复观察我还有一个单独的数据框其中只有一个主题 ID 列表我想从更大的数据框中匹配和提取如何以允许我引用不同数据帧中的SubjectID列表的方式编写代码不确定我是否完全理解这个问
将 Instagram/youtube 嵌入 Shiny R 应用程序

我想通过点击图表来播放 Instagram 或 Youtube 视频例如显示异常值等到目前为止明确告诉 Shiny 视频内容是有效的 require shiny require ggplot2 data df lt data fram
如何在 ggplot 中保持配色方案，同时删除每个图中未使用的级别？

我想比较一个图中的数据的一些子组和另一图中的一些其他子组如果我绘制一个图其中绘制了所有子组那么这个数字将是巨大的并且每个单独的比较都会变得困难我认为如果给定的子组在所有图中都具有相同的颜色这对读者来说会更有意义这是我尝试过的两
LDA with topicmodels，如何查看不同文档属于哪些主题？

我正在使用 topicmodels 包中的 LDA 我已经在大约 30 000 个文档上运行它获取了 30 个主题并获得了主题的前 10 个单词它们看起来非常好但我想看看哪些文档属于哪个主题的概率最高我该怎么做 myCorpus
使用 broom 和 tidyverse 总结 r 平方游戏

我发布了一个问题here https stackoverflow com questions 48627287 getting adjusted r squared value for each line in a geom smooth
R中的一元加/减是什么？

来自 R 的详细信息部分Syntax http stat ethz ch R manual R patched library base html Syntax html帮助页面定义了以下一元和二元运算符他们被列出在优先级组中从最高
如何删除箱线图上的刻度线

我试图从箱线图中删除 x 轴刻度线但保留与刻度线关联的标签这在基础 R 中可能吗 colors lt c lightskyblue3 gray78 gold1 wheat1 boxplot avgscore module data mi
R - Plm 和 lm - 固定效应

我有一个平衡面板数据集 df 本质上由三个变量组成 A B and Y 对于一堆独特识别的区域来说它会随着时间的推移而变化我想运行一个回归其中包括区域下面等式中的区域和时间年份固定效应如果我没记错的话我可以通过不同的方式来
纵向序列数据的三次样条方法？

我有一个串行数据格式如下 time milk Animal ID 30 25 6 1 31 27 2 1 32 24 4 1 33 17 4 1 34 33 6 1 35 25 4 1 33 29 4 2 34 25 4 2 35 24
使用 purrr 迭代替换数据帧列中的字符串

我想用purrr使用以下命令在数据框列上迭代运行多个字符串替换gsub 功能这是示例数据框 df lt data frame Year 2019 Text c rep a aa 5 rep a bb 3 rep a cc 2 gt df
如何使用 usmap 标记数字而不是名称？

我知道 usmap 有一个选项label in plot usmap 我想标记一些数字而不是状态名称我想 usmap 中应该有与州质心坐标相关的数据但我不知道如何找到它如果我能得到坐标然后我可以用它来标记数字geom text 这
R 中的列乘以子字符串

假设我有一个数据框其中包含多个组件及其在多个列中列出的属性并且我想对这些列运行多个函数我的方法是尝试将其基于每个列标题中的子字符串但我无法弄清楚如何做到这一点下面是数据框的示例 Basket F Type 1 F Qty 1 F
只读取选定的列

谁能告诉我如何仅读取下面每年数据的前 6 个月 7 列例如使用read table Year Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2009 41 27 25 31 31 39 2
将阴影区域添加到五分位数之间的直方图中

All 我有一个包含 2 个直方图的图表其中我还绘制了代表第 20 40 60 和 80 个百分位数的线条下面的代码使用虚拟数据重现了类似的图表 data lt rbind data frame x rnorm 1000 0 1 g o
旋转 Markdown 的表格 pdf 输出

我想将 pdf 上的表格输出旋转 90 度我正在使用 Markdown 生成报告并kable循环显示表格如果可以的话我想继续使用kable因为还有很多其他依赖于它的东西我没有包含在这个 MWE 中这是一个简单的例子使用iris数据集

随机推荐

如何将 FormsAuthentication cookie 添加到 HttpClient HttpRequestMessage

我试图通过调用 FormsAuthentication SetAuthCookie someUser false 来验证内部集成测试之后我确实需要调用 WebAPI 并且不会收到未经授权的异常因为我已经应用了授权属性我正在使用此代码来
Ruby Koans：为什么将符号列表转换为字符串

我指的是 Ruby Koans 中 about symbols rb 中的这个测试https github com edgecase ruby koans blob master src about symbols rb L26 https
如何从 Perl 与 ClearCase 交互？

我的项目需要使用 Excel 工作表中的 Perl 脚本从 ClearCase 数据中提取一些内容这些内容是通过给出两条特定的时间线或两条基线该基线内关联的所有活动列标题活动所有者 ID 列标题所有者特定活动中关联的所有元素
插座之间的管道

我有一个充当镜像的 C 服务器输入的内容会输出到不同的套接字现在它将套接字读入缓冲区并将其写入另一个套接字我想提高吞吐量 I ve 读东西 http www kegel com c10k html zerocopy about se
点之间的欧几里得距离

我在 numpy 中有一个点数组 points rand dim n points 我想计算某个点与所有其他点之间的所有 l2 范数欧几里得距离计算所有成对距离最好都是 numpy 而没有 for 一个人怎样才能做到呢如果您愿意使
PropertyPlaceholderConfigurer 从 XML 文件读取（Apache Commons 配置）

是否可以配置 Spring PropertyPlaceholderConfigurer 来读取 properties xml 通过 Apache Commons 配置我在帮助下找到了解决方案seanizer https stackover
如何使用nodejs禁用Chrome的会话恢复警告？

如何通过 NodeJS 在 Windows 中重新启动 Chromium Google Chrome 信息亭模式以便它在重新启动时正常启动浏览器就像普通人使用它一样当我每次重新启动 Chromium Google chrome 时使用
图像周围出现尴尬的线条

可能最容易用图像来解释我想要什么当我浮动图像时文本围绕它运行这很棒但是根据文本量和图像大小我经常会遇到这些尴尬的情况在这种情况下尴尬的文本在图像旁边的列中看起来会更好 I could根据有多少尴尬的文本为图像添加更多的底部边
何时选择在 SSIS 的 Lookup 组件中进行缓存

在SSIS查找中有3种类型的缓存完整部分和无缓存在我们的解决方案中它一直使用默认的完整是否有任何特定的场景可以使用部分缓存无缓存在我们的解决方案中锁定表总是很小例如我们一直在查看小表来获取类型或获取描述这可能是它在
按最新排序，但按另一个 ID 列放在一起

我正在尝试进行一些排序并保持在一起不是真正的分组工作在我的示例数据中我想将 DealerID 保留在一起按 IsPrimaryDealer DESC 排序但按最新条目显示经销商组好吧也许是分组结果集 2 是最接近的但 G
为ListView自定义CheckedTextView

据我所知 ListView嵌入了CheckedTextView来形成列表但是每个CheckedTextView只有一个TextView和一个CheckBox 我想要做的是将一些 TextView 添加到 CheckedTextView 中
使用 PostgreSQL 在 WITH(CTE) 中创建

我正在尝试使用 PostgreSQL 中的函数在WITH 中创建临时表 Example with mm as select from test create table xyz as select from mm Note 在创建附近出现错
在 Django 模板中执行 Javascript 和 css

我正在 Django 应用程序中通过 Weasyprint 将 HTML 导出为 PDF 我注意到如果我将模板 html 发送到前端并将该 html 返回到后端以将其导出为 pdf 它会完美打印但如果我直接将模板 html 发送到 We
如何在 C++ 中的 while 循环中存储先前的迭代？

我看到有一个类似标题的答案但内容对我来说太密集了因为我不太了解 C 我对编程非常陌生我不知道如何在 while 循环中存储先前的迭代我正在尝试使用 while 循环将用户文本写入文件并以两个结束输入 n人物这就是我的问题所在因
当我添加到数组时，svelte 列表不会更新

我刚刚开始使用 svelte 所以这可能是一个菜鸟问题我有一个列表我可以从数组中删除项目并且列表 each 更新没有问题但是如果我将一个项目添加到数组中列表不会重新绘制直到我删除另一个项目 https svelte dev r
如何使用客户端证书在 Web API 中进行身份验证和授权

我尝试使用客户端证书对使用 Web API 的设备进行身份验证和授权并开发了一个简单的概念证明来解决潜在解决方案的问题我遇到了 Web 应用程序未收到客户端证书的问题许多人报告了这个问题包括在这个问答中 https stackove
读取 iPhone 运营商的信号强度

这可能吗如果没有的话我真的很惊讶这还没有通过 API 开放 Apple 不允许使用低级网络 wifi 蜂窝 API 有趣的是在之前的一段时间内应用程序商店中有些应用程序使用了私有 api 例如一些 WIFI 扫描仪至少据我所知现
Python 中的线程

关于如何在 Python 中使用线程的一般教程或好的资源何时使用线程它们如何有效以及线程的一些一般背景特定于 Python 当您希望同时运行两个事物或者希望某些事物在后台运行而不减慢主进程时应该使用线程我的建议是仅在必要时才使用
将每个列表值映射到其相应的百分位

我想创建一个函数它接受排序的列表作为其参数并输出一个包含每个元素相应百分位数的列表例如 fn 1 2 3 4 17 回报 0 0 0 25 0 50 0 75 1 00 任何人都可以请帮我改正下面的代码吗或者是否提供了比我的
仅使用移动窗口中的先前值的线性回归

我有一个巨大的数据集想要在 60 个窗口上执行滚动线性回归但是我希望线性回归只考虑 60 个先前的值我的 Dataframe DF 包含以下列 Date Company Y X1 X2 01 01 2015 Mill 0 13 1

仅使用移动窗口中的先前值的线性回归

仅使用移动窗口中的先前值的线性回归 的相关文章

随机推荐

热门标签

仅使用移动窗口中的先前值的线性回归的相关文章