通过根据组条件创建重复项来扩展 data.frame (3)

2024-02-06

从...开始这个问题 https://stackoverflow.com/questions/44242299/expand-data-frame-by-creating-duplicates-based-on-group-condition-2.

Example data.frame:

df = read.table(text = 'ID  Day Count   Count_group
            18  1933    6   15
            33  1933    6   15
            37  1933    6   15
            18  1933    6   15
            16  1933    6   15
            11  1933    6   15
            111 1932    5   9
            34  1932    5   9
            60  1932    5   9
            88  1932    5   9
            18  1932    5   9
            33  1931    3   4
            13  1931    3   4
            56  1931    3   4
            23  1930    1   1
            6   1800    6   12
            37  1800    6   12
            98  1800    6   12
            52  1800    6   12
            18  1800    6   12
            76  1800    6   12
            55  1799    4   6
            6   1799    4   6
            52  1799    4   6
            133 1799    4   6
            112 1798    2   2
            677 1798    2   2
            778 888     4   8
            111 888     4   8
            88  888     4   8
            10  888     4   8
            37  887     2   4
            26  887     2   4
            8   886     1   2
            56  885     1   1
            22  120     2   6
            34  120     2   6
            88  119     1   6
            99  118     2   5
            12  118     2   5
            90  117     1   3
            22  115     2   2
            99  115     2   2', header = TRUE)

The Countcol 显示总数ID每个值Day和Count_groupcol 显示总和ID每个值Day, Day - 1, Day -2, Day -3 and Day -4.

例如1933 =Count_group15 因为Count6 (1933) +Count5 (1932) +Count3 (1931) +Count1 (1930) +Count0（1929）。

我需要做的是为每个创建重复的观察Count_group并将它们添加到其中以便显示每个Count_group its Day, Day - 1, Day -2, Day -3 and Day -4.

e.g. Count_group= 15 由 Count 值组成Day1933 年、1932 年、1931 年、1930 年（和 1929 年未出现在df）。所以这五天需要包括在Count_group= 15. 下一个将是Count_group= 9，由1932年、1931年、1930年、1929年和1928年组成； ETC...

期望的输出：

ID  Day   Count Count_group
18  1933    6   15
33  1933    6   15
37  1933    6   15
18  1933    6   15
16  1933    6   15
11  1933    6   15
111 1932    5   15
34  1932    5   15
60  1932    5   15
88  1932    5   15
18  1932    5   15
33  1931    3   15
13  1931    3   15
56  1931    3   15
23  1930    1   15

111 1932    5   9
34  1932    5   9
60  1932    5   9
88  1932    5   9
18  1932    5   9
33  1931    3   9
13  1931    3   9
56  1931    3   9
23  1930    1   9

33  1931    3   4
13  1931    3   4
56  1931    3   4
23  1930    1   4

23  1930    1   1

6   1800    6   12
37  1800    6   12
98  1800    6   12
52  1800    6   12
18  1800    6   12
76  1800    6   12
55  1799    4   12
6   1799    4   12
52  1799    4   12
133 1799    4   12
112 1798    2   12
677 1798    2   12

55  1799    4   6
6   1799    4   6
52  1799    4   6
133 1799    4   6
112 1798    2   6
677 1798    2   6

112 1798    2   2
677 1798    2   2

778 888     4   8
111 888     4   8
88  888     4   8
10  888     4   8
37  887     2   8
26  887     2   8
8   886     1   8
56  885     1   8

37  887     2   4
26  887     2   4
8   886     1   4
56  885     1   4

8   886     1   2
56  885     1   2

56  885     1   1

22  120     2   6
34  120     2   6
88  119     1   6
99  118     2   6
12  118     2   6
90  117     1   6

88  119     1   6
99  118     2   6
12  118     2   6
90  117     1   6
22  115     2   6
99  115     2   6

99  118     2   5
12  118     2   5
90  117     1   5
22  115     2   5
99  115     2   5

90  117     1   3
22  115     2   3
99  115     2   3

22  115     2   2
99  115     2   2

（请注意，不同的 5 天组之间用空行分隔，以便更清晰）

我有不同的 data.frames，它们按 n 天分组，因此我想专门针对每个数据框调整代码（通过稍微更改）。

Thanks

我之前的答案的通用版本......

#first add grouping variables
days <- 5 #grouping no of days
df$smalldaygroup <- c(0,cumsum(sapply(2:nrow(df),function(i) df$Day[i]!=df$Day[i-1]))) #individual days
df$bigdaygroup <- c(0,cumsum(sapply(2:nrow(df),function(i) df$Day[i]<df$Day[i-1]-days+1))) #blocks of linked days

#duplicate days in each big group
df2 <- lapply(split(df,df$bigdaygroup),function(x) {
  n <- max(x$Day)-min(x$Day)+1 #number of consecutive days in big group
  dayvec <- (max(x$Day):min(x$Day)) #possible days in range
  daylog <- dayvec[dayvec %in% x$Day] #actual days in range
  pattern <- data.frame(base=rep(dayvec,each=days))
  pattern$rep <- sapply(1:nrow(pattern),function(i) pattern$base[i]+1-sum(pattern$base[1:i]==pattern$base[i])) #indices to repeat
  pattern$offset <- match(pattern$rep,daylog)-match(pattern$base,daylog) #offsets (used later)
  pattern <- pattern[(pattern$base %in% x$Day) & (pattern$rep %in% x$Day),] #remove invalid elements
  #store pattern in list as offsets needed in next loop
  return(list(df=split(x,x$smalldaygroup)[match(pattern$rep,daylog)],pat=pattern))
})

#change the Count_group to previous value in added entries
df2 <- lapply(df2,function(L) lapply(1:length(L$df),function(i) {
  x <- L$df[[i]]
  offset <- L$pat$offset #pointer to day to copy Count_group from
  x$Count_group <- L$df[[i-offset[i]]]$Count_group[1]
  return(x)
}))

df2 <- do.call(rbind,unlist(df2,recursive=FALSE)) #bind back together

df2[,5:6] <- NULL #remove grouping variables

head(df2,30) #ignore rownames!

       ID  Day Count Count_group
01.1   18 1933     6          15
01.2   33 1933     6          15
01.3   37 1933     6          15
01.4   18 1933     6          15
01.5   16 1933     6          15
01.6   11 1933     6          15
02.7  111 1932     5          15
02.8   34 1932     5          15
02.9   60 1932     5          15
02.10  88 1932     5          15
02.11  18 1932     5          15
03.12  33 1931     3          15
03.13  13 1931     3          15
03.14  56 1931     3          15
04     23 1930     1          15
05.7  111 1932     5           9
05.8   34 1932     5           9
05.9   60 1932     5           9
05.10  88 1932     5           9
05.11  18 1932     5           9
06.12  33 1931     3           9
06.13  13 1931     3           9
06.14  56 1931     3           9
07     23 1930     1           9
08.12  33 1931     3           4
08.13  13 1931     3           4
08.14  56 1931     3           4
09     23 1930     1           4
010    23 1930     1           1
11.16   6 1800     6          12

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

通过根据组条件创建重复项来扩展 data.frame (3) 的相关文章

分离并重新附加“tools:rstudio”

又名玩火以下不起作用 rstd obj lt as environment tools rstudio detach tools rstudio attach rstd obj name tools rstudio 好吧它似乎有效但随
在 mac (iMac OSX ) 终端中远程运行脚本（r 脚本）到其他计算机

我有一个小示例脚本 script p r 如下所示打算在终端中运行 usr bin Rscript sink output capture txt mn lt mean 1 10 and so on much longer list of
将值替换为其各自列的名称

我有一个数据框 Code 401k CVS 101A true 231N true FD54 true 99JB 85F4 true 我试图用相应的列名称例如 401k 替换 true 字符值这是我想要的输出 Code 401k CVS
从所有数据帧列中删除子字符串

我有一个单词列表大约 1000 个单词我称之为负面单词 CAST ARTICLES SANITARY JAN CLAUSES SPECIAL ENDORSEMENT 我很快就会用这个单词列表制作一个数据框我还有一个数据框看起来像 F
使用 dplyr:group_by 将数据帧分成多个子集？

有没有办法根据 group by 组使用 dplyr 将一个数据帧拆分为数据帧的子集 mtcars gt group by cyl gear gt codes 非常感谢好吧并不是你真的想要但你可以这样做tidyr 即nearly一样的
如何在 R 中为传单中的数值变量设置不对称颜色渐变

我想让传单调色板以零为中心红白绿发散我已经尝试过中所说的这个帖子 https stackoverflow com questions 29262824 r center color palette on 0 当我尝试手动创建颜色时我得
如何找到多个 pandas 数据框中一对列与任意顺序对的交集？

我有多个 pandas 数据框为了简单起见假设我有三个 gt gt df1 col1 col2 id1 A B id2 C D id3 B A id4 E F gt gt df2 col1 col2 id1 B A id2 D C id
如何获得属于五分位数的x？

我正在大学学习使用 R 进行计量经济学项目所以请原谅我的笨拙基本上使用并给出一个矩阵股票价格行天列公司股票价格另一个矩阵市值行天列公司市值我必须收集第三个矩阵每天观察的属于市值分布第一五分位数的股票价格然后
R.matlab/readMat：readTag(this) 中出错

我正在尝试使用 R matlab 将 matlab 文件读入 R 但遇到此错误 require R matlab r lt readMat file mat verbose T Trying to read MAT v5 file stre
将 sf voronoi 多边形裁剪到边界框时出错

我正在尝试将 voronoi polygons 使用 sf package 创建剪辑到边界框但它引发了我无法定义的错误我对 R 的空间世界不太有经验感谢所有帮助样本数据 stations lt structure list ST
如何更改 Shiny 中 navbarPage 折叠的断点

我想用shiny navbarPage collapsible TRUE 当在小屏幕上查看我的 Shiny 应用程序时将导航元素折叠到菜单中默认情况下当浏览器宽度小于 940 像素时会触发折叠有什么方法可以改变这一点以便在稍大的浏
解析，用三点参数替换

让我们考虑一个典型的deparse substitute R call f1 lt function u x y print deparse substitute x varU vu varX vx varY vy f1 u varU x
fread 将空导入为 NA

我正在尝试导入带有空白的 csv 读取为不幸的是他们都读作 NA now 为了更好地演示问题我还展示了如何NA NA and 都映射到同一事物除了最底部的示例这将妨碍简单的解决方法dt is na dt lt gt write cs
glmnet 未从 cv.glmnet 收敛 lambda.min

我跑了20倍cv glmnet套索模型以获得 lambda 的最佳值但是当我尝试重现结果时glmnet 我收到一个错误内容如下 Warning messages 1 from glmnet Fortran code error c
解析时区并转换为夏令时

我有一个 pandas 数据框Datetime column Datetime 0 2019 01 01 17 02 00 1 2019 01 01 17 03 00 2 2019 01 01 17 04 00 3 2019 01 01 1
带 R 的多彩标题

我想添加颜色某些词在我的图表标题中我已经能够在这里找到一些先例 http blog revolutionanalytics com 2009 01 multicolor text in r html 具体来说我希望用撇号括起来的文本在
表单提交时出现 rvest 错误

我想从以下网页中抓取数据 https swgoh gg u zozo collection 180 emperor palpatine https swgoh gg u zozo collection 180 emperor palpati
在 R 中使用 Huggingface Transformer 模型

我正在尝试在 R 中使用不同的 Huggingface 模型这是通过 reticulate 导入 Transformer 包来实现的谢谢 https rpubs com eR ic transfoRmers https rpubs co
重新分配唯一值 - pandas DataFrame

我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人总体目标是使用尽可能少的个人诀窍在于这
如何将 ggrough 图表另存为 .png

说我正在使用R包裹ggrough https xvrdm github io ggrough https xvrdm github io ggrough 我有这个代码取自该网页 library ggplot2 library ggroug

随机推荐

在 Github Action 中如何引用私有包进行测试？

我已经为 Github Action 编写了一个测试文件 test yml name Test on push branches main pull request branches main jobs build runs on ubun
如何从 Volley 中的 JSONObject 获取字符串响应

我使用volley创建了JSONRequest 它成功命中了服务我检查了服务端它接收了数据并发送成功作为回报问题是服务返回String在输出中 Volley 除了一些JSON Data在输出中所以它执行onError方法而
在换行符上可靠地分割用户提交的文本区域值[重复]

这个问题在这里已经有答案了字符串输入来自文本区域用户应该在新行上输入每个项目处理表单时很容易将文本区域输入分解为单个项目的数组如下所示 arr explode n textareaInput 它工作正常但我担心它在不同系统中无法
ASP.NET MVC C# 路由 - 传递空整数

我正在 Web 应用程序中使用 MVC 3 但遇到路由问题我像这样定义我的路由器处理程序 routes MapRoute Users controller aspx action id page URL with parameters n
（仍然没有答复）django复选框在数据库中保存是或否
UISearchController 不会关闭 iOS 8 Swift 的搜索栏和重叠

我在使用 UISearchController 时遇到问题如果我在搜索栏中有文本并关闭它所在的 VC 则 searchBar 不会消失只会保留在屏幕上与其他 VC 中的所有内容重叠如果您点击取消按钮它就会崩溃已经尝试了一些解决方
如何使用捆绑包标识符将系统首选项启动到特定的首选项窗格？

我正在尝试直接从我的应用程序打开系统日期和时间首选项我似乎可以使用以下命令毫无问题地打开系统偏好设置 let settingsBundleIdentifier com apple systempreferences NSWorkspace
HttpClient StreamContent 附加文件名两次

我正在使用 Microsoft Http 客户端库从 Windows Phone 8 向服务器发出多部分请求它包含具有 json 字符串的 String 内容和具有图像流的 Stream Content 现在我得到状态正常并请求在服务器上
git - 如何从 git merge --log 获取完整消息

使用后git merge log no ff no commit or git merge log squash 创建一个长提交消息但消息被切断了即最后并没有列出所有提交我如何获得完整的消息我检查了文件 git MERGE HEA
TFS 2017 - 建立代理优先级和顺序

我有一个包含 10 个代理的池我注意到通常只有其中一些被使用而其他仍然存在的几乎从未被使用过我想知道是否有办法让 TFS 使用所有这些例如 TFS 之类的东西会根据顺序抓取它们第一次使用数字 1 然后是 2 3 使用代理后它将代
如何将 HTML 选择选项文本分组到列中

我有一个 HTML 选择选项其中的文本我想分组为对齐的列我尝试使用内联块
处理已弃用的“adminmedia”模板标签和 {% admin_media_prefix %} 的适当方法

从 django 1 5 开始 https docs djangoproject com en 1 5 releases 1 5 miscellaneous https docs djangoproject com en 1 5 relea
用 Java 编写未知（大）大小的 Tar 文件

我想用 Java 将未知大小的大流写入 tar 文件我知道阿帕奇有公共压缩库 http commons apache org compress which 处理 tar 文件 http commons apache org compres
在 WooCommerce 可变产品中的每个属性值旁边显示库存状态

我想在我的商店中实现类似的东西我有这个代码但是每个变体旁边都显示数量 function get stock variations from product global product variations product gt get
使用 Serde 反序列化跳过序列中的无效元素

使用 Serde 我想通过保留有效元素并跳过无效元素来反序列化元素序列我有以下有效负载 nhits 30 parameters dataset occupation parkings temps reel timezone UTC row
使用 NSString + stringWithContentsOfFile:usedEncoding:error:

我遇到了 use stringWithContentsOfFile usedEncoding error 问题我在usedEncoding中的问题 NSStringEncoding enc 我不知道如何设置指向编码的指针如果我成功了程
如何对 jsonb 键执行 LIKE 查询？

我有以下 jsonb 结构 this 1 this that 0 this and that 5 如何选择包含 LIKE 运算符的行 SELECT FROM myjson WHERE j this 返回 0 行希望它能匹配 this th
如何使用 gulp 构建 JavaScript 包？

我想用gulp http gulpjs com 构建 JavaScript 文件包例如我的项目中有以下结构供应商供应商1 供应商1 js 供应商供应商2 供应商2 js js includes include1 js js inc
如何从现有的基本模型实例创建继承的 django 模型实例？

我有两个 Django 模型像这些 https docs djangoproject com en dev topics db models multi table inheritance class Place models Model
通过根据组条件创建重复项来扩展 data.frame (3)

从开始这个问题 https stackoverflow com questions 44242299 expand data frame by creating duplicates based on group condition 2

通过根据组条件创建重复项来扩展 data.frame (3)

通过根据组条件创建重复项来扩展 data.frame (3) 的相关文章

随机推荐

热门标签