R 中的对称非负矩阵分解

2024-04-01

I am trying to implement NMF in R based on the following formula :
H is initially guess and then iteratively update based on this formula. I wrote this code but it takes like ever to execute. How can I rewrite this code? W is similarity matrix.

sym.nmf <- function ( W )
{
        N <- ncol(W)
        set.seed(1234)
        H <- matrix(runif(N * k, 0, 1),N,k)

        J1 <- 0

        while (0 < 1)
        {
                HT <- t(H)
                A <- W %*% H
                B <- H %*% HT %*% H
                H <- 0.5 * ( H * ( 1 + ( A / B )))
                J = W - (H %*% t(H))
                J = sum (J^2)
                if ( (J1 != 0 ) && (J > J1) )
                        return (H1)
                H1 <- H
                J1 <- J
        }

}

这是一个重做的sym.nmf在此过程中进行了一些统计上重要的改进和速度增益。

Add a 相对耐受性 (rel.tol) 参数，当 J[i] 在范围内时中断循环rel.tolJ[i-1] 的百分比。按照您的设置方式，只有当 0 == 1 或机器精度变得比拟合本身更加可变时，您才会停止循环。理论上，你的函数永远不会收敛。
Add a seed，因为再现性很重要。沿着这条线，您可能会考虑使用非负双 SVD 进行初始化以获得领先优势。但是，根据您的应用程序，这可能会将您的 NMF 推向局部最小值，而该局部最小值不能代表全局最小值，因此可能很危险。就我而言，我被锁定在类似 SVD 的最小值中，并且 NMF 最终收敛到完全不同于随机初始化的因式分解的状态。
Add a 最大迭代次数 (max.iter），因为有时您不想运行一百万次迭代来达到您的容忍阈值。
替代在crossprod and tcrossprod基础功能%*%功能。根据矩阵大小，这可实现约 2 倍的速度增益。
减少检查收敛的次数，因为计算残差信号W减去后HH^T占用了近一半的计算时间。您可以假设需要数百到数千次迭代才能收敛，因此只需每 100 个周期检查一次收敛情况。

更新功能：

sym.nmf <- function (W, k, seed = 123, max.iter = 10000, rel.tol = 1e-10) {
  set.seed(seed)
  H <- matrix(runif(ncol(W) * k, 0, 1),ncol(W),k)
  J <- c()
  for(i in 1:max.iter){
    H <- 0.5*(H*(1+(crossprod(W,H)/tcrossprod(H,crossprod(H)))))

    # check for convergence every 100 iterations
    if(i %% 100 == 0){
      J <- c(J,sum((W - tcrossprod(H))^2))
      plot(J, xlab = "iteration", ylab = "total residual signal", log = 'y')
      cat("Iteration ",i,": J =",tail(J)[1],"\n")
      if(length(J) > 3 && (1 - tail(J, 1)/tail(J, 2)[1]) < rel.tol){
        return(H)
      }    
    }
    if(i == max.iter){
      warning("Max.iter was reached before convergence\n")
      return(H)
    }
  }
}

目标函数也可以被隔离，并且Rfast可以用于并行计算Rfast::Crossprod() and Rfast::Tcrossprod()以及。

sym.nmf <- function (W, k, seed = 123, max.iter = 100, rel.tol = 1e-10) {
  set.seed(seed)
  require(Rfast)
  H <- matrix(runif(ncol(W) * k, 0, 1),ncol(W),k)
  J <- c()
  for(i in 1:max.iter){
    H <- 0.5 * fit_H(W,H, num.iter = 100)
    J <- c(J,sum((W - tcrossprod(H))^2))
    plot(J, xlab = "iteration", ylab = "total residual signal", log = 'y')
    cat("Iteration ",i,": J =",tail(J, n = 1),"\n")
    if(length(J) > 3 && (1 - tail(J, 1)/tail(J, 2)[1]) < rel.tol){
      return(H)
    }
    if(i == max.iter){
      warning("Max.iter was reached before convergence\n")
      return(H)
    }
  }
}

fit_H <- function(W,H, num.iter){
  for(i in 1:num.iter){
    H <- 0.5*(H*(1+(Rfast::Crossprod(W,H)/Rfast::Tcrossprod(H,Rfast::Crossprod(H,H)))))
  }
  H
}

现在这个目标函数可以转换为 Rcpp 以进一步提高速度。并行化还可以在目标函数（并行化crossprod and tcrossprod）或并行运行多个分解（因为通常需要多次重新启动才能发现可靠的解决方案）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

R 中的对称非负矩阵分解的相关文章

使用 R 的 flextable 包时，有没有办法将传递给 add_header_lines() 的字符串部分加粗

我正在使用我喜欢的 flextable 包为 Word 文档创建几个表格但是我在将表格标题中的部分文本加粗时遇到了一些麻烦例如我希望标题为 Table 1 我的表格标题的其余部分而不是表 1 我的表格标题的其余部分 I 找到这个
如何使用 R 中带引号的字符值内的序列读取 CSV？

这是一个包含两个字符列的 CSV 文件 key value a 所有字符值都用双引号引起来并且有一个顺序在值之一内转义引号加分隔符我无法通过 read csv readr 中的 read csv 或 data table 中的 fr
如何更新条件公式？

让我直接进入示例考虑以下等式 frml lt formula y a b x z 使用这样的公式规范例如和AER ivreg 我想更新这个公式使其显示为 frml2 lt y a b c x z w 但是我不确定如何更新条件标志之前
限制数据框中所有单元格的字符串长度？

您好有没有一种方法可以限制 data frame 中所有列的字符串文本大小而不必循环遍历每一列并一次使用 str trunc 之类的东西例如下面的数据框我可以将所有文本大小限制为仅 5 个字符而不必一次只执行一列吗如果有 50
错误：“rjags”的包或命名空间加载失败

在终端的 conda 环境之一中我能够成功安装包 rjags 但是当我在该环境中运行 R 并运行库 rjags 时出现以下错误加载所需的包 coda 错误 rjags 的包或命名空间加载失败 rjags 的 loadNamespac
R 更改小数位且不四舍五入

gt signif 1 89 digits 2 1 1 9 我想要1 8 这有点笨拙但它会起作用并保持所有数字 x lt 1 829380 trunc dec lt function x n floor x 10 n 10 n Resul
逻辑回归/二项式的 glmnet 误差

当尝试将 glmnet 与 family binomial 配合以进行逻辑回归拟合时出现此错误 gt data lt read csv DAFMM HE16 matrix csv header F gt x lt as data fram
比较 R 中的两个字符向量

我有两个 ID 字符向量我想比较这两个字符向量特别是我对以下数字感兴趣 A和B各有多少个ID 有多少个ID在A中但不在B中有多少个ID在B但不在A 我还想画维恩图以下是一些可以尝试的基础知识 gt A c Dog Cat Mouse
替换字符串/文本中“从第 n 次到最后一次”出现的单词

这个问题以前曾被问过但尚未得到令提问者满意的答案 https stackoverflow com questions 36368712 how to use stringrs replace all function to replace
如何将 ggrough 图表另存为 .png

说我正在使用R包裹ggrough https xvrdm github io ggrough https xvrdm github io ggrough 我有这个代码取自该网页 library ggplot2 library ggroug
从数据框创建稀疏矩阵

我正在做一项作业尝试为 Netflix 奖项数据构建协作过滤模型我使用的数据位于 CSV 文件中我可以轻松地将其导入到数据框中现在我需要做的是创建一个稀疏矩阵其中用户作为行电影作为列每个单元格都由相应的评级值填充当我尝试绘制
R - tidyr - 变异并传播多列

我在 R 中有以下数据框 my df test lt data frame V1 c 1 2 1 V2 c A B A V3 c S1 S1 S2 V4 c x x x V5 c y y y V6 c A B C V7 c D E F my
为什么 \K 似乎消耗了基本 R 的 gsub 中的一个字符

这是一个示例字符串 bcadefgh 我希望我能匹配除了 cad 具有以下模式 wa w K w 如果我想替换所有不是的东西 cad 我可以用gsub 像这样gsub wa w K w bcadefgh perl TRUE 但是这输出 ca
如何修改秤包生成的标签？

所以我正在制作金字塔可视化我在用着scale y continuous labels scales label number si accuracy 0 1 来生产标签但是我想去掉图表女性部分的负号我认为保留 SI 后缀但删除负号的
R Tidytext 和 unnest_tokens 错误

对 R 非常陌生已经开始使用 tidytext 包我正在尝试使用参数来填充unnest tokens函数这样我就可以进行多列分析所以而不是这个 library janeaustenr library tidytext library
ggplot 直方图相对于轴的位置不正确

我试图这样绘制直方图 Todo lo haremos con base en un variable aleatoria Uniforme 0 1 set seed 26 n 10000 U lt runif n n Supongamos
使用许多特殊字符将 R 连接到 HANA 数据库时出现问题

我在将 HANA 数据读入 R 时遇到问题我已通过以下方式建立了连接 ch lt odbcConnect HANA uid USER pwd PW 并确认我已通过以下方式连接 sqlTables ch 这会调出我的表格列表对我想要拉取的
根据R中的前一行和当前行按组计算

我可以根据 R 中的前一行和当前行进行计算对于此数据框 df A B 1 2 2 2 2 3 3 4 5 5 B2 A2 0 5 B1 我可以使用这段代码来计算这个函数 for i in 2 nrow df B i lt 1 2 B i
在 Ubuntu Lucid 中从二进制安装 R 包

我已经使用以下命令在 Ubuntu Lucid 中安装了 R sudo aptitude 安装 r base 当我尝试 install packages 时它似乎会下载源代码然后花费很长时间来编译它我怎样才能像我在 Windows 上
基于条件反应逻辑闪亮的 Flexdashboard

我正在尝试有条件地进行一种类型的渲染 renderPlot 或其他 renderText 基于一些输入这是我尝试过的 title Citation Extraction output flexdashboard flex dashboar

随机推荐

如何识别您正在虚拟机下运行？

有没有办法从虚拟机内识别您的代码正在虚拟机内运行我想有或多或少简单的方法来识别特定的虚拟机系统特别是如果虚拟机安装了提供商的扩展例如 VirtualBox 或 VMWare 但是有没有一个通用的方法来识别你不是直接在CPU上运行的呢
标准是否要求重命名是原子的？

当我试图回答这个问题时出现了一个有趣的问题 mv 在我的 fs 上是原子的吗 https unix stackexchange com questions 322038 is mv atomic on my fs 322074 32207
Windows 无法将参数传递给 python 脚本

在 py script py 中 import os import sys l len sys argv if l 1 print no args else if l gt 1 print first arg is s sys argv 1
基于 NSSplitViewController 的应用程序几乎永远不会以正确的大小启动

我有这个应用程序它使用NSSplitViewController作为根并且有一个NSTabViewController作为其详细视图控制器连接此应用程序设置为以 1024x768 启动左窗格应以 320x768 启动右窗格 tabV
如果组件的容器被移除，是否需要调用`unmountComponentAtNode`？

我渲染一个 React 组件SettingsTab在一个名为的包装器中TeamView 它的 API 看起来像 class TeamView constructor this el document createElement div re
TreeView、HierarchicalDataTemplate 和递归数据

对于我的树视图我有两个不同的类提供 ItemsSource public class TreeViewModel ViewModelBase public ObservableCollection
找不到我的语法错误，VC++ 说有一个

我在这里遇到了一些问题我正在搞乱机器代码和函数指针并且 VC 根本拒绝编译我的一些代码这完全按照预期编译和运行 include
Hibernate 使用错误的表名进行三级继承的 order by 表达式

在我们的项目中我们有不同类别呈现的不同用户类型我们有一个 BaseEntity 类作为 MappedSuperclass 当我们尝试将用户类与 InheritanceType JOINED 一起使用时 hibernate 会创建一条我们
如何为react-native应用程序设置URL方案/链接

我想使用 oauth 为 Spotify Web API 授予对 React Native 应用程序的访问权限我知道我需要使用linking https facebook github io react native docs linki
即使具有 SELECT 权限也无法选择表

我有两个用户 USER1 and USER2 USER1有特权create table and USER2没有这个特权 USER1创建了一个名为EMPLOYEE并授予select该表的特权USER2 使用 USER1 凭据 1 创建表 CR
如何知道我的二进制可执行文件的内存占用量

我想知道是否有办法知道用 C 语言编码的二进制可执行文件的内存占用量有关二进制可执行文件的信息使用OpenWrt分支 Attitude Adjustment 的工具链编译架构为x86 在 Linux Unix 系统上您可以使用siz
构建 Keras Tensorboard 图

当我创建一个简单的 Keras 模型时 model Sequential model add Dense 10 activation tanh input dim 1 model add Dense 1 activation linear
如何在 UNIX shell 中将制表符分隔的文本复制到剪贴板，同时保留制表符？

我正在尝试将 UNIX 环境中的文件的几行复制并粘贴到网页中我想通过破坏选项卡来保留原始格式但是当我选择一段文本并将其复制并粘贴到网页中时所有选项卡都已转换为不同长度的空格有人可以告诉我如何保留原始标签吗它需要尽可能简单以便新
数据库表命名，复数或单数[重复]

这个问题在这里已经有答案了命名数据库的表和模式时最好使用单数或复数例如应该是客户还是客户命名时应该用Capital 如Customer或customer吗关于命名有什么最佳实践吗这个问题需要一场宗教战争我毫不怀疑它应该是复数
C++11 空列表联合的初始化 - 是否保证初始化联合的完整长度？

在 C 11 中我有以下联合 union SomeData std uint8 t Byte std uint16 t Word std uint32 t DWord unsigned char String 128 如果我这样初始化联合
Git checkout——恢复丢失的文件

我不小心删除了 git 存储库上的本地文件更改他们没有被承诺甚至没有被推动我做了什么 git 状态然后显示未暂存提交的文件并且我意外地通过此命令删除了名为 smdr 的整个文件夹 git checkout smdr 然后文件更改就
Latex中如何设置标题字体颜色

Latex 中可以更改标题字体颜色吗你可以看看sectsty包裹 secsty 包提供了一组命令用于更改标准 LATEX 2 文档类中各个章节标题所使用的字体 1 从手册中确保您在文档中包含该包方法是在您的文件序言 usepack
C++ - 如何使用 C++ 读取 Unicode 字符（例如印地语脚本），或者是否有通过其他编程语言更好的方法？

我有一个像这样的印地语脚本文件 3 我必须编写一个程序为每个句子中的每个单词添加一个位置因此特定单词位置的每一行的编号应以括号中的 1 开头输出应该是这样的 3 1 2 3 4 5 6 7 8 9 上面这句话的意思是 3 India
我需要在 asp.net 中屏蔽文本框

该文本框中只能包含数字条目必须在 100 到 500 之间文本框需要包含 3 位小数我不希望在将值插入数据库时出现任何错误我需要使用 jQuery 或 ASP NET 验证控件吗如果 jQuery 有用那么我会使用哪个插件或
R 中的对称非负矩阵分解

I am trying to implement NMF in R based on the following formula H is initially guess and then iteratively update based

R 中的对称非负矩阵分解

R 中的对称非负矩阵分解 的相关文章

随机推荐

热门标签

R 中的对称非负矩阵分解的相关文章