如何从一个巨大的矩阵中获得最大可能的列序列和最少可能的行NA？

2024-03-21

我想从数据框中选择列，以便得到结果连续的列序列尽可能长，而带有 NA 的行数尽可能少，因为之后必须删除它们。

（我想这样做的原因是，我想运行TraMineR::seqsubm()自动获取转移成本矩阵（按转移概率）并稍后运行cluster::agnes() on it. TraMineR::seqsubm()不喜欢NA州和cluster::agnes() with NA矩阵中的状态不一定有意义。）

为此，我已经写了一个工作function https://codereview.stackexchange.com/q/208826/185901原则上计算所有可能的功率子集并检查它们NAs。它与这个玩具数据配合得很好d它代表一个 10x5 矩阵：

> d
   id X1 X2 X3 X4 X5
1   A  1 11 21 31 41
2   B  2 12 22 32 42
3   C  3 13 23 33 NA
4   D  4 14 24 34 NA
5   E  5 15 25 NA NA
6   F  6 16 26 NA NA
7   G  7 17 NA NA NA
8   H  8 18 NA NA NA
9   I  9 NA NA NA NA
10  J 10 NA NA NA NA
11  K NA NA NA NA NA

现在的问题是，我实际上想将该算法应用于代表34235 x 17 矩阵！

我的代码已经在Code Review上审核过了，但仍然无法应用到真实数据上。

我知道采用这种方法会产生巨大的计算量。（对于非超级计算机来说可能太大了？！）

有谁知道更合适的方法？

我已经给你展示了@minem 的增强功能 https://codereview.stackexchange.com/a/208928/185901来自代码审查：

seqRank2 <- function(d, id = "id") {
  require(matrixStats)

  # change structure, convert to matrix
  ii <- as.character(d[, id])
  dm <- d
  dm[[id]] <- NULL
  dm <- as.matrix(dm)
  rownames(dm) <- ii

  your.powerset = function(s){
    l = vector(mode = "list", length = 2^length(s))
    l[[1]] = numeric()
    counter = 1L
    for (x in 1L:length(s)) {
      for (subset in 1L:counter) {
        counter = counter + 1L
        l[[counter]] = c(l[[subset]], s[x])
      }
    }
    return(l[-1])
  }

  psr <- your.powerset(ii)
  psc <- your.powerset(colnames(dm))

  sss <- lapply(psr, function(x) {
    i <- ii %in% x
    lapply(psc, function(y) dm[i, y, drop =  F])
    })

  cn <- sapply(sss, function(x)
    lapply(x, function(y) {

      if (ncol(y) == 1) {
        if (any(is.na(y))) return(NULL)
          return(y)
        }

      isna2 <- matrixStats::colAnyNAs(y)
      if (all(isna2)) return(NULL)
      if (sum(isna2) == 0) return(NA)
      r <- y[, !isna2, drop = F]
      return(r)
      }))

  scr <- sapply(cn, nrow)
  scc <- sapply(cn, ncol)

  namesCN <- sapply(cn, function(x) paste0(colnames(x), collapse = ", "))
  names(scr) <- namesCN
  scr <- unlist(scr)

  names(scc) <- namesCN
  scc <- unlist(scc)

  m <- t(rbind(n.obs = scr, sq.len = scc))
  ag <- aggregate(m, by = list(sequence = rownames(m)), max)
  ag <- ag[order(-ag$sq.len, -ag$n.obs), ]
  rownames(ag) <- NULL
  return(ag)
}

产量：

> seqRank2(d)
         sequence n.obs sq.len
1  X1, X2, X3, X4     4      4
2      X1, X2, X3     6      3
3      X1, X2, X4     4      3
4      X1, X3, X4     4      3
5      X2, X3, X4     4      3
6          X1, X2     8      2
7          X1, X3     6      2
8          X2, X3     6      2
9          X1, X4     4      2
10         X2, X4     4      2
11         X3, X4     4      2
12             X1    10      1
13             X2     8      1
14             X3     6      1
15             X4     4      1
16             X5     2      1

> system.time(x <- seqRank2(d))
   user  system elapsed 
   1.93    0.14    2.93

在这种情况下我会选择X1, X2, X3, X4, X1, X2, X3 or X2, X3, X4因为他们是连续的并产生适当数量的观察结果。

预期输出：

所以对于玩具数据d预期的输出将类似于：

> seqRank2(d)
sequence n.obs sq.len
1  X1, X2, X3, X4     4      4
2      X1, X2, X3     6      3
3      X2, X3, X4     4      3
4          X1, X2     8      2
5          X2, X3     6      2
6          X3, X4     4      2
7              X1    10      1
8              X2     8      1
9              X3     6      1
10             X4     4      1
11             X5     2      1

最后函数应该在巨大的矩阵上正确运行d.huge这会导致目前的错误：

> seqRank2(d.huge)
Error in vector(mode = "list", length = 2^length(s)) : 
  vector size cannot be infinite

玩具数据d:

d <- structure(list(id = structure(1:11, .Label = c("A", "B", "C", 
"D", "E", "F", "G", "H", "I", "J", "K"), class = "factor"), X1 = c(1L, 
2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 10L, NA), X2 = c(11L, 12L, 13L, 
14L, 15L, 16L, 17L, 18L, NA, NA, NA), X3 = c(21L, 22L, 23L, 24L, 
25L, 26L, NA, NA, NA, NA, NA), X4 = c(31L, 32L, 33L, 34L, NA, 
NA, NA, NA, NA, NA, NA), X5 = c(41L, 42L, NA, NA, NA, NA, NA, 
NA, NA, NA, NA)), row.names = c(NA, -11L), class = "data.frame")

玩具数据d.huge:

d.huge <- setNames(data.frame(matrix(1:15.3e5, 3e4, 51)), 
                   c("id", paste0("X", 1:50)))
d.huge[, 41:51] <- lapply(d.huge[, 41:51], function(x){
  x[which(x %in% sample(x, .05*length(x)))] <- NA
  x
})

附录（见评论最新答案）：

d.huge <- read.csv("d.huge.csv")
d.huge.1 <- d.huge[sample(nrow(d.huge), 3/4*nrow(d.huge)), ]
d1 <- seqRank3(d.huge.1, 1.27e-1, 1.780e1)
d2 <- d1[complete.cases(d1), ]
dim(d2)
names(d2)

对于海量数据来说，这需要不到一秒钟的时间

l1 = combn(2:length(d), 2, function(x) d[x[1]:x[2]], simplify = FALSE)
# If you also need "combinations" of only single columns, then uncomment the next line
# l1 = c(d[-1], l1)
l2 = sapply(l1, function(x) sum(complete.cases(x)))

score = sapply(1:length(l1), function(i) NCOL(l1[[i]]) * l2[i])
best_score = which.max(score)
best = l1[[best_score]]

问题不清楚如何对各种组合进行排序。我们可以使用不同的评分公式来生成不同的偏好。例如，要分别对行数和列数进行加权，我们可以这样做

col_weight = 2
row_weight = 1
score = sapply(1:length(l1), function(i) col_weight*NCOL(l1[[i]]) +  row_weight * l2[i])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何从一个巨大的矩阵中获得最大可能的列序列和最少可能的行NA？的相关文章

重复测量引导统计数据，按多个因素分组

我有一个看起来像这样的数据框但显然还有更多行等 df lt data frame id c 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 cond c A A B B A A B B A A B B A A B B co
如何使用 R 计算成为列表中中位数的概率？

假设我有以下数据集其中显示了假设实验的每个状态的三个观察结果的列表 state lt c Iowa Minnesota Illinois outcome lt list c 5 11 11 c 3 12 8 c 9 14 2 dat lt
通过间接引用列来修改数据框中的某些值

我正在整理一些数据我们将失败的数据分类到垃圾箱中并按批次计算每个分类箱的有限产量我有一个描述排序箱的元表这些行按升序测试顺序排列一些排序标签带有非语法名称 sort tbl lt tibble tribble weight lab
绘制点之间的所有线

我有以下 R 代码 x lt c 0 01848598 0 08052353 0 06741172 0 11652034 y lt c 0 4177541 0 4042247 0 3964025 0 4074685 d lt data fr
pyomo + 网状错误 6 句柄无效

我正在尝试运行pyomo优化我收到错误消息 Error 6 The handle is invalid 不知道如何解释它环顾四周似乎与特权有关但我不太明白在下面找到完整的错误跟踪以及重现它的玩具示例完整的错误跟踪 py run f
twitterR 和 ROAuth R 软件包安装

我在安装 CRAN 上的 twitteR 和 RAOuth 软件包时遇到一些问题我尝试了几种不同的方法在 Windows 下使用源代码在 Ubuntu 下使用 RStudio 我尝试了以下命令 sudo apt get install
R独特的列或行与NA无可比拟

有谁知道如果incomparables的论证unique or duplicated 曾经被实施过incomparables FALSE 也许我不明白它应该如何工作无论如何我正在寻找一个巧妙的解决方案以仅保留与另一列相同的唯一列或行
使用 R 选择第一个非 NA 值

df lt data frame ID c 1 1 1 2 3 3 3 test c NA 5 5 6 4 NA 7 3 NA 10 9 我想创建一个名为 value 的变量它是每个单独 ID 测试的第一个非 NA 值对于只有NA的个体
r 中训练和测试数据的最小最大缩放/归一化

我正在创建一个函数它将训练集和测试集作为其参数最小最大缩放标准化并返回训练集并使用这些same最小值和最小最大范围的值标准化并返回测试集到目前为止这是我想出的功能 min max scaling lt function tr
朴素贝叶斯分类器仅基于先验概率做出决策

我试图根据推文的情绪将推文分为三类买入持有卖出我正在使用 R 和包 e1071 我有两个数据框一个训练集和一组需要预测情绪的新推文训练集数据框 text sentiment this stock is a good buy Bu
只读取选定的列

谁能告诉我如何仅读取下面每年数据的前 6 个月 7 列例如使用read table Year Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2009 41 27 25 31 31 39 2
使用 Shiny 发布平行坐标图表时出现“错误：路径[1]="”：没有这样的文件或目录”

我有一个似乎很常见但我还没有找到解决方案的问题当尝试使用 rCharts Parcoords 发布 Web 应用程序时出现以下错误错误路径 1 没有这样的文件或目录奇怪的是该应用程序在我的笔记本电脑上运行得很好下面是我正在使用
在 Rcpp 中使用其他包中的 C 函数

我试图从 C 函数中的 cubature 包调用 C 例程来执行多维积分我试图重现的基本 R 示例是 library cubature integrand lt function x sin x adaptIntegrate integr
read_html(url) 和 read_html(content(GET(url), "text")) 之间的区别

我正在看这个很棒的答案 https stackoverflow com a 58211397 3502164 https stackoverflow com a 58211397 3502164 解决方案的开头包括 library httr
SPSS 中的标准化残差与 R rstandard(lm()) 不匹配

在寻找 R 相关解决方案时我发现 R 和 SPSS 版本 24 在计算简单线性模型中的标准化残差方面存在一些不一致看来SPSS所谓的标准化残差匹配 R学生化残差我完全不认为某处存在软件错误但显然这两个程序之间存在差异看看这个例子
实三次多项式的最快数值解？

R 问题寻找最快的方法来数值求解一堆已知具有实系数和三个实根的任意三次方程据报道 R 中的 polyroot 函数对复杂多项式使用 Jenkins Traub 算法 419 但对于实多项式作者参考了他们早期的工作对于实三次或更一般的
闭包作为数据合并习惯的解决方案

我正在尝试解决闭包问题而且我think我发现了一个案例他们可能会有所帮助我有以下几部分需要处理一组正则表达式旨在清理状态名称位于函数中具有州名称上述函数创建的标准化形式和州 ID 代码的 data frame 用于链接两者
如何绘制具有显着性水平的箱线图？

前段时间问了一个关于绘制箱线图的问题Link1 https stackoverflow com questions 14604439 plot multiple boxplot in one graph 我有一些包含 3 个不同组或标签
如何将plot中的单变量列表图表转换为ggplot2格式？

我正在搜索但仍然找不到一个非常简单的问题的答案我们如何使用 R 中的 ggplot2 生成一个变量的简单线图我正在分析时间序列数据并且想要对图表进行更复杂的操作我认为如果我使用 ggplot2 代替会更好plot It works
线性判别分析图

如何将样本 ID 行号作为标签添加到此 LDA 图中的每个点 library MASS ldaobject lt lda Species data iris plot ldaobject panel function x y points

随机推荐

什么是 C/C++ 数据段和堆栈大小？

我读到这取决于编译器和操作系统架构如何在使用 GCC 作为编译器的 Linux 系统上找到数据段和堆栈最大大小让我和你一起实验一下创建文件 test c 如下所示 int main void return 0 现在编译它指定最大堆栈
使用 ExtJ 进行多选组合框

如何实现多选组合框作为Ext FormPanel使用ExtJs 我一直在寻找但似乎找不到与最新版本的 ExtJs 兼容的解决方案这个问题 https stackoverflow com questions 2635809 multise
加载 tableview 之前检测 iPhone 方向

所以我有点陷入困境根据这个帖子 https stackoverflow com questions 3402401 get launch orientation of ipad app iPhone iPad 的方向在一定程度上是纵向的
提交的 iPhone 应用程序二进制详细信息中显示“预渲染图标标志：true”，但图标在商店中显示为光泽效果 [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 图标已包含
如何设置 UINavigationBar 上后退按钮的文本？ [复制]

这个问题在这里已经有答案了可能的重复如何更改导航栏上后退按钮的标题 https stackoverflow com questions 1449339 how do i change the title of the back bu
如何将 $index 从 ng-repeat 表获取到模态控制器？

我有一个使用 angularjs bootstrap ui 创建的客户记录表并使用 ng repeat 表中每行的末尾都有一个按钮用于获取有关客户的更多信息单击该按钮时会弹出一个包含信息的模态表单我的问题是无论我按哪个按钮我都会得
Cocoa 有布局/几何管理吗？

如果我创建 WinForms Qt Gtk 应用程序我使用所谓的布局管理器或几何管理器根据小部件内的文本和我的指令自动布局我的 UI 例如如果我布局一个具有大编辑字段且其下方有 2 个按钮右对齐的窗口我会编写以下代码使用垂直
使用 ASIFormDataRequest 将 json 发送到 php

我是 iPhone 新手我正在尝试将 NSMutable 数组转换为 json 字符串然后使用 request 将此字符串发送到 php 文件然后使用响应 NSLog 再次打印它以确保它已成功发送所以我在viewDidLoad中编
将字符串附加到 IronScheme 中的现有文本文件

我们正在尝试使用 IronScheme 构建一个日志文件并且我们已经使用racket 为其编写了代码它在球拍中工作正常但 IronScheme 会抛出错误这是我们目前所拥有的 define write to log lambda w
python3 tkinter Entry() 无法选择文本字段，直到我单击应用程序窗口外部一次

我用 python3 tkinter 编写了一个非常简单的应用程序但我看到 Entry 出现一些奇怪的行为我是 tkinter 和 python 的新手 import os from tkinter import Tk Entry fi
C 中的溢出和下溢

人们可以做什么来了解他们的系统如何响应溢出情况描述一种测试系统如何响应下溢情况的方法我确实了解什么是溢出和下溢我在维基百科上查找了这一点但我不明白如何在系统之间进行测试 With unsigned对于整数 C 要求下溢和上溢以某种方
将“/app”而不是“/appinst”与 android:pathPattern 匹配（使用意图过滤器）

我正在尝试创建一个过滤某些特定网址的意图我试图捕获的网址是 http host com app http host com app http host com app http host com app http host com app
具有范围 v3 的求和向量

我需要总结一些向量也就是说我想总结nth每个向量的元素并用结果创建一个新向量我已经确保输入向量的大小都相同我想用优秀的range v3 https github com ericniebler range v3 图书馆我试过了t
在本地主机中设置 IIS 作为 Web 开发服务器

如何在 Visual Studio 2008 中设置 IIS 5 1 作为我的 Web 开发服务器我正在使用Win XP 并且我正在使用Cassini 但我想给IIS一个托盘而不是进入控制面板 gt 添加删除程序 gt 启用禁用Win
每天12小时重复通知

我想每天 12 点重复我的通知但我的代码不起作用我在 OnCreate 的 MainActivity 中启动警报管理器如下所示 protected void onCreate Bundle savedInstanceState sup
VLOOKUP vba 中的引用变量工作表

我正在编写一个宏它根据现有工作表上的值创建变量工作表我很好地管理了该部分但现在我需要在引用新创建的工作表的另一张工作表上添加 VLOOKUP 公式新工作表的名称没有固定的模式因此我无法引用它们这是我用来创建新工作表的代码 Dim
线程“主”java.lang.VerifyError 中出现异常：操作数堆栈上的类型错误

在给定 input txt 文件中查找最大温度的 Map Reduce 程序中发生了此错误我写了两栏分别是年份和温度 Exception in thread main java lang VerifyError Bad type on
积分错误：函数评估给出了错误长度的结果

尝试下面的代码 library pracma f lt function x 1 integrate f 0 1 value quad f 0 1 quad 工作正常但integrate 报告错误消息积分 f 0 1 中的错误函数评估
在 Recyclerview 中下载图像

我有一个回收者视图其中有一个Imageview in the Viewholder 图像是通过下载的AsyncTask in the onBindViewHolder在适配器中问题是当我向下或向上滚动时 onBindViewHolder
如何从一个巨大的矩阵中获得最大可能的列序列和最少可能的行NA？

我想从数据框中选择列以便得到结果连续的列序列尽可能长而带有 NA 的行数尽可能少因为之后必须删除它们我想这样做的原因是我想运行TraMineR seqsubm 自动获取转移成本矩阵按转移概率并稍后运行cluster agnes

如何从一个巨大的矩阵中获得最大可能的列序列和最少可能的行NA？

如何从一个巨大的矩阵中获得最大可能的列序列和最少可能的行NA？ 的相关文章

随机推荐

热门标签

如何从一个巨大的矩阵中获得最大可能的列序列和最少可能的行NA？的相关文章