如何识别数据集中其他列之和的列

2024-05-26

我想编写一个函数（最好用 R 语言，但也欢迎其他语言），它可以识别数据集中列之间的关系（仅限于加法/减法）。其实际应用是在大型多列财务数据集上运行它，其中某些列是其他列的小计 - 并识别此类小计。

理想情况下，我希望允许一些小的差异 - 例如允许舍入问题导致列的总和不完全为 100%。

我发现了以下内容question https://stackoverflow.com/questions/13088770/how-to-write-linearly-dependent-column-in-a-matrix-in-terms-of-linearly-independ其中包括涉及矩阵和排名的解决方案，但我不确定是否有任何方法可以合并处理舍入问题引起的数据噪声的能力。

举个例子：

d = data.frame(a=c(10.12, 20.02, 30.08, 20.19), b=c(12.12, 20.45, 20.52, 16.72), c=c(11, 123.25, 20.67, 20.78))
d$d = d$a + d$b
d$e = d$d + d$c
> d
      a     b      c     d      e
1 10.12 12.12  11.00 22.24  33.24
2 20.02 20.45 123.25 40.47 163.72
3 30.08 20.52  20.67 50.60  71.27
4 20.19 16.72  20.78 36.91  57.69

magic_function(d)
[1] "d$d = d$a + d$b"
[2] "d$e = d$d + d$c" # or "d$e = d$a + d$b + d$c" (first option preferred)

在我将噪声引入方程之前，链接问题中的解决方案效果很好。例如d$d[[4]] = d$d[[4]] + 0.01- 然后它就不再起作用了。我的问题是：

还有其他方法可以识别之间的关系吗？列（特别是如果它们仅限于简单的加/减）
是否有任何方法能够解决不完美的数据质量问题或者我是否需要构建一些额外的它的功能（例如，在通过排名识别算法运行数据之前对数据进行舍入）。

如果您只需要检查任何列是否是任何其他两列之和的结果，那么这里有一个想法将起作用。它还允许您添加噪音。我们基本上首先通过添加原始数据集的所有组合来创建一个数据框。然后，我们用创建的数据框减去数据集的每一列。如果所有值均为 0，则表示它们匹配。通过使用colSums(i < 0.01) == nrow(i))，我们能够添加所需的噪声。

d2 <- setNames(data.frame(combn(1:ncol(d), 2, function(i) rowSums(d[i]))), 
                combn(names(d), 2, function(j)paste(j, collapse = ' + ')))

l1 <- lapply(d, function(i) sapply(d2, function(j) Map(function(x, y)abs(x - y), i, j)))

lapply(l1, function(i) names(which(colSums(i < 0.01) == nrow(i))))

#$a
#character(0)

#$b
#character(0)

#$c
#character(0)

#$d
#[1] "a + b"

#$e
#[1] "c + d"

或者使它成为一个函数noise作为输入参数，

f1 <- function(df, noise){
  d2 <- setNames(data.frame(combn(1:ncol(df), 2, function(i) rowSums(df[i]))), 
                 combn(names(df), 2, function(j)paste(j, collapse = ' + ')))
  l1 <- lapply(df, function(i) sapply(d2, function(j) 
                       Map(function(x, y)abs(x - y), i, j)))
  Filter(length, lapply(l1, function(i) 
                names(which(colSums(i < noise) == nrow(i)))))
}

f1(d, 0.01)
#$d
#[1] "a + b"

#$e
#[1] "c + d"

如果我们想让它更灵活，那么我们可以添加另一个参数来获取（列的）组合数，即

f1 <- function(df, n, noise){
  d2 <- setNames(data.frame(combn(1:ncol(df), n, function(i) rowSums(df[i]))), 
                 combn(names(df), n, function(j)paste(j, collapse = ' + ')))
  l1 <- lapply(df, function(i) sapply(d2, function(j) 
                       Map(function(x, y)abs(x - y), i, j)))
  Filter(length, lapply(l1, function(i) 
                names(which(colSums(i < noise) == nrow(i)))))
}

sapply(2:3, function(i) f1(d, i, 0.01))
#[[1]]
#[[1]]$d
#[1] "a + b"

#[[1]]$e
#[1] "c + d"

#[[2]]
#[[2]]$e
#[1] "a + b + c"

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何识别数据集中其他列之和的列的相关文章

R foreach问题（某些进程返回NULL）

我遇到了问题foreach我正在 R 中使用的程序的一部分该程序用于运行不同参数的模拟然后将结果返回到单个列表然后用于生成报告当并非所有分配的模拟运行都在报告上实际可见时就会出现问题从各方面来看似乎只有分配的运行的一个子集实际
如何计算R中移动窗口内的平均斜率

我的数据集包含2个变量y 和 t 05s y 每 05 秒测量一次我正在尝试计算移动中的平均坡度20秒窗口即计算第一个 20 秒斜率值后窗口向前移动一个时间单位 05 秒并计算下一个 20 秒窗口在以下位置生成连续 20 秒斜率值
通过间接引用列来修改数据框中的某些值

我正在整理一些数据我们将失败的数据分类到垃圾箱中并按批次计算每个分类箱的有限产量我有一个描述排序箱的元表这些行按升序测试顺序排列一些排序标签带有非语法名称 sort tbl lt tibble tribble weight lab
如何使用 usmap 标记数字而不是名称？

我知道 usmap 有一个选项label in plot usmap 我想标记一些数字而不是状态名称我想 usmap 中应该有与州质心坐标相关的数据但我不知道如何找到它如果我能得到坐标然后我可以用它来标记数字geom text 这
为什么 dplyr filter() 不能在函数内工作（即使用变量作为列名）？

使用 dplyr 函数对数据进行过滤分组和变异的函数基本管道序列在函数之外工作得很好这就是我使用真实列名称的地方将其放入一个函数中其中列名称是一个变量并且某些函数可以工作但有些函数则不能尤其是 dplyr filter 例如
在 R 格子包中微调点图

我正在尝试为不同的数据集和不同的算法绘制一堆 ROC 区域我有三个变量方案指定所使用的算法数据集是正在测试算法的数据集以及 Area under ROC 我正在 R 中使用lattice库命令如下点图方案 Area und
r 中训练和测试数据的最小最大缩放/归一化

我正在创建一个函数它将训练集和测试集作为其参数最小最大缩放标准化并返回训练集并使用这些same最小值和最小最大范围的值标准化并返回测试集到目前为止这是我想出的功能 min max scaling lt function tr
ggplot2 geom_密度和geom_histogram在一个图中

如何制作一个所有条形加起来为 1 的直方图并在适合的上方添加一个密度层 set seed 1234 df lt data frame sex factor rep c F M each 200 weight round c rnorm 2
如何将 numpy.matrix 提高到非整数幂？

The 运算符为numpy matrix不支持非整数幂 gt gt gt m matrix 1 0 0 5 0 5 gt gt gt m 2 5 TypeError exponent must be an integer 我想要的是 oct
如何获得所有大于x且有位置的数字？

V lt c 1 3 2 4 2 3 1 X lt 3 pos lt V V X pos is 3 3 我需要的是所有 3 个的位置 I need 2 and 6 哪些职位是3 in V Use which pos lt which V 3
计算 R 中各列的唯一值

我正在尝试创建一个新变量其中包含来自两个不同列的字符串值的唯一计数所以我有这样的东西例如 A tibble 4 x 2 names partners
如何从 R 中的 txt 文件读取矩阵？

我有一个带有矩阵的txt文件 Matrix txt 重要数字之间没有空格 0100 1001 1100 我想在 R 中将其作为矩阵读取我该怎么做我尝试使用 as matrix read table Matrix txt sep 但失败
ggplot2：如何标记事件发生的日期

我想从第二个情节中获取第一个情节的信息第二张图表示事件发生的天数它看起来更宽因为它没有图例但它是相同的时间尺度我选择在第一个图中手动分配颜色 I would like to overlay the second plot dots
纵向比较 R 中的值...并进行扭转

我有许多人在多达四个时间段进行的测试结果这是一个示例 dat lt structure list Participant ID c A A A A B B B B C C C C phase structure c 1L 2L 3L 4L
如何在将两根柱子保持在一起的同时熔化柱子？

我有这种宽格式的数据我想将其转换为长格式 Cond Construct Line Plant Tube shoot weight shoot Tube root weight root 1 Standard NA NA 2 199 95
GLKit的GLKMatrix“列专业”如何？

前提A 当谈论线性存储器中的列主矩阵时列被一个接一个地指定使得存储器中的前 4 个条目对应于矩阵中的第一列另一方面行主矩阵被理解为依次指定行以便内存中的前 4 个条目指定矩阵的第一行 A GLKMatrix4看起来像这样 u
条件字体颜色 R Markdown

我无法找到一种方法来根据变量的值 gt 0 0 或 r setup include FALSE x lt 4 This is an R Markdown document r if x gt 0 textcolor red Markdown
Shiny：动态数据框构建； renderUI、观察、reactiveValues

我认为如何使用 Shiny 的 renderUI 功能动态子集数据的问题经常出现但我很难理解何时使用 renderUI 带有 uiOutput 而不是其他功能包括观察反应反应值甚至条件面板我想构建一个完全交互式的数据框架其中每个
如何修复 R 中 Kaplan Meier 图的风险表计算错误

以下是一个数据帧其中 6 个参与者中的每一个都有唯一的 record ID 我想绘制一个生存分析图其中包含感兴趣事件的复发以及在时间间隔 tstart 到 tstop 内暴露药物剂量数值变量的时间依赖性协变量每个参与者的最大
在 ifelse() 语句内部和外部运行一行时的不同输出

我正在尝试运行一个简单的命令但不知道为什么在内部和外部运行它时输出不同ifelse 功能函数条件评估为FALSE 所以输出应该完全相同但是单独运行时输出为0 0 1 1 0 1 0 1 NA 根据需要但是从ifelse 函数输

随机推荐

FROM 子句中子查询末尾随机字母的含义 - SQL

我终于成功将两个sql sum查询的结果求和了这家伙迈出了一小步我的问题与代码中的最后一个字符 Z 有关 SELECT SUM hr FROM SELECT SUM amount AS hr FROM Try again dbo tue
仅底部的框阴影

我有一盒内容需要为其提供阴影但我只想为盒子的底部提供阴影我用过这个css box shadow 0 3px 5px 000000 如果我给出这个代码它会显示左右和底部我只需要底部任何人都可以建议解决这个问题吗多谢添加类后您
Oracle SQL 查询日期格式

我总是对 ORACLE SQL 查询中的日期格式感到困惑并花几分钟时间去谷歌有人可以向我解释当数据库表中有不同格式的日期时解决问题的最简单方法吗例如我有一个日期列为 ES DATE 保存的数据为 27 APR 12 11 52 48
如何在 sed 中用“pwd”的结果替换令牌？

我正在尝试做这样的事情 sed s REPLACE WITH PATH pwd 不幸的是我出错了 sed e expression 1 char 23 unknown option to s 为什么会发生这种情况您需要使用不同的字符而不
在 Swift 中删除字符串中第一个字符的最简洁方法是什么？

我想删除字符串中的第一个字符到目前为止我想到的最简洁的事情是 display text display text substringFromIndex advance display text startIndex 1 我知道我们不能用
.NET：EventHandler 竞争条件修复如何工作？

以下模式用于在引发事件时避免竞争条件以防另一个线程取消订阅 MyEvent 使其为空 class MyClass public event EventHandler MyEvent public void F EventHandler h
cmd：找不到服务：活动#Error：ADB 在 flutter 中退出，退出代码为 1

更新 android studio 后我运行我的 flutter 程序错误表明 Launching lib main dart on AOSP on IA Emulator in debug mode Running Gradle ta
BigVideo.js 播放结束时 URL 重定向

我已经使用基于 Video js 的 BigVideo 在页面上实现了背景视频单击 div 时视频会在后台播放我一生都无法弄清楚如何在视频播放完毕后重定向到另一个 URL 这是我正在使用的代码视频播放链接 a href vids g
动态 getter 和 setter - 一种可能性

我正在尝试解决最近出现的一个问题假设我们想要并且知道如何在 javascript 中使用动态 getter 和 setter 就像 php 中的那样 get set 但由于 javascript 没有包罗万象的属性我们唯一能做的就是提供
从 C++ 中的函数返回二维数组[重复]

这个问题在这里已经有答案了可能的重复 C 从函数返回多维数组 https stackoverflow com questions 3716595 c returning multidimension array from function
在 pandas 中展开列表列时，是否有一种Python式的方法来添加枚举列？

考虑以下DataFrame gt gt gt df pd DataFrame A 1 2 3 B abc def ghi apply A int B list gt gt gt df A B 0 1 a b c 1 2 d e f 2 3
如何正确实现带有 close 方法的处置模式（CA1063）

框架设计指南第二版第 327 页说考虑提供方法Close 除了Dispose 如果接近是该领域的标准术语这样做时重要的是使 Close 实现与Dispose并考虑实施IDisposable Dispose方法明确因此按照提
无法使用 Firebase 广告：没有静态方法 zzc(Landroid/os/Bundle;

我正在尝试将 Firebase 广告库添加到我的项目该项目已经上线中构建工作正常但当我尝试运行时它崩溃并出现以下错误 11 16 10 33 13 535 540 540 com dap E AndroidRuntime 致命异常
Spring Hibernate中的@Transient方法调用

我有一个 Pojo 类在其中创建一个未与数据库表映射的字段所以我必须声明字段Declaration和setter和getter方法 Transient 否则会显示错误 Transient private String docHistor
PlayFramework 2.4 在应用程序启动后运行一些代码

在 play 2 4 中重写 ApplicationLoader 中的构建器方法或在 Abstract 模块中实现 EagerBinding 替换现有的 play 2 3 GlobalSettings onStart 然而在 play
具有成员 std::mutex （或其他不可复制对象）的类的复制或移动构造函数？

class A private class B private std mutex mu A parent NULL public B A const parent ptr parent parent ptr B const A B b c
将误差线添加到 3D 绘图

我找不到在 matplotlib 的 3D 散点图中绘制误差条的方法基本上对于以下代码段 from mpl toolkits mplot3d import axes3d import matplotlib pyplot as plt f
Candidate.toLowerCase 不是函数。（在“candidate.toLowerCase()”中，“candidate.toLowerCase”未定义）Material UI

我在用AutoComplete API材质 UI 有一个对象前 100 部影片其中包含电影的标题和年份如果我搜索我的自动完成功能可以正常工作top100Film title如代码所示
如何有效地左填充字节数组

假设我有一个数组 LogoDataBy byte 0x00000008 0x00000000 0x41 0x00000001 0x42 0x00000002 0x43 0x00000003 0x44 0x00000004 0x31 0x00
如何识别数据集中其他列之和的列

我想编写一个函数最好用 R 语言但也欢迎其他语言它可以识别数据集中列之间的关系仅限于加法减法其实际应用是在大型多列财务数据集上运行它其中某些列是其他列的小计并识别此类小计理想情况下我希望允许一些小的差异例如允许舍入问题

如何识别数据集中其他列之和的列

如何识别数据集中其他列之和的列 的相关文章

随机推荐

热门标签

如何识别数据集中其他列之和的列的相关文章