Fortran 中对多个矩阵进行加权和求和的最有效方法

2024-01-03

我正在尝试用 Fortran 编写一个函数，将多个具有不同权重的矩阵相乘，然后将它们加在一起形成一个矩阵。我已经确定这个过程是我的程序的瓶颈（这个权重将被many程序单次运行的时间，具有不同的权重）。现在我正试图通过从 Matlab 切换到 Fortran 来让它运行得更快。我是 Fortran 新手，所以我感谢所有帮助。

在 Matlab 中，我发现进行此类计算的最快方法如下所示：

function B = weight_matrices()
n = 46;
m = 1800;
A = rand(n,m,m);
w = rand(n,1);
tic;
B = squeeze(sum(bsxfun(@times,w,A),1));
toc;

线在哪里B指定在我的机器上运行大约 0.9 秒（Matlab R2012b、MacBook Pro 13" 视网膜、2.5 GHz Intel Core i5、8 GB 1600 MHz DDR3）。应该注意的是，对于我的问题，张量A在程序的整个运行过程中（初始化后）将是相同的（常量），但 w 可以取任何值。此外，典型值n and m这里使用的是张量A内存大小约为 1 GB。

我能想到的用 Fortran 语言编写的最清晰的方法是这样的：

pure function weight_matrices(w,A) result(B)
    implicit none
    integer, parameter :: n = 46
    integer, parameter :: m = 1800
    double precision, dimension(num_sizes), intent(in) :: w
    double precision, dimension(num_sizes,msize,msize), intent(in) :: A
    double precision, dimension(msize,msize) :: B
    integer :: i
    B = 0
    do i = 1,n
        B = B + w(i)*A(i,:,:)
    end do
end function weight_matrices

当使用 gfortran 4.7.2 编译时，使用 -O3（函数调用以“call cpu_time(t)”计时），该函数运行时间约为 1.4 秒。如果我手动将循环展开为

B = w(1)*A(1,:,:)+w(2)*A(2,:,:)+ ... + w(46)*A(46,:,:)

该函数的运行时间约为 0.11 秒。这非常棒，意味着与 Matlab 版本相比，我获得了大约 8 倍的加速。但是，我仍然对可读性和性能有一些疑问。

首先，我想知道是否有更快的方法来执行矩阵的加权和求和。我浏览了 BLAS 和 LAPACK，但找不到任何合适的函数。我也尝试过将维度放入A枚举矩阵作为最后一个维度（即从(i,j,k) to (k,i,j)对于元素），但这会导致代码变慢。

其次，这个快速版本不太灵活，而且实际上看起来相当难看，因为对于如此简单的计算来说，文本量太大。对于我正在运行的测试，我想尝试使用不同数量的权重，以便 w 的长度会有所不同，看看它如何影响我的算法的其余部分。然而，这意味着我相当繁琐地重写了分配B每次。有什么方法可以使其更加灵活，同时保持性能相同（或更好）？

三、张量A如前所述，在程序运行期间将保持不变。我在自己的模块中使用“参数”属性在程序中设置了常量标量值，并使用“use”表达式将它们导入到需要它们的函数/子例程中。对张量做同等事情的最佳方法是什么A？我想告诉编译器，这个张量在初始化之后将是恒定的，以便可以进行任何相应的优化。注意A通常大小约为 1 GB，因此直接将其输入到源文件中是不切实际的。

预先感谢您的任何意见！ :)

也许你可以尝试类似的事情

    do k=1,m
       do j=1,m
          B(j,k)=sum( [ ( (w(i)*A(i,j,k)), i=1,n) ])
       enddo
    enddo

方括号是 (/ /) 的新形式，即一维矩阵（向量）。该术语在sum是一个维数矩阵(n) and sum将所有这些元素相加。这正是您未包装的代码所做的（并且不完全等于do循环你有）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

performance

Fortran

Fortran 中对多个矩阵进行加权和求和的最有效方法的相关文章

SQL 中的 JOIN 成本有多高？和/或，性能和标准化之间的权衡是什么？

我发现了一个类似的线程但它并没有真正抓住我想要问的本质所以我创建了一个新线程我知道规范化和性能之间存在权衡我想知道划定这条线的最佳实践是什么在我的特定情况下我有一个消息传递系统它具有三个不同的表 messages thread
我们可以使用什么方法来重塑非常大的数据集？

当由于非常大的数据计算将花费很长时间并且因此我们不希望它们崩溃时事先知道要使用哪种重塑方法是很有价值的 Lately methods for reshaping data have been further developed regar
MySQL InnoDB 查询性能

我正在尝试优化一个简单的 sql 查询该查询将多次运行大量数据这是场景 MySQL 与 InnoDB 表 where 和 join 中使用的所有字段都已索引表有 FK 我不需要查询的整个缓存但每个表的缓存是可能的表有更多的更新插
使用map.get()时使用java Map.containsKey()是多余的

一段时间以来我一直想知道在最佳实践中是否允许避免使用containsKey 方法上java util Map而是对结果进行空检查get 我的理由是两次查找值似乎是多余的首先是查找containsKey 然后再次为get 另一方面大多
非阻塞方法中的饥饿

一段时间以来我一直在阅读有关非阻塞方法的内容这是一段所谓的无锁计数器的代码 public class CasCounter private SimulatedCAS value public int getValue return va
嵌套辅助函数和性能

嵌套辅助函数对于使代码更易于理解非常有用谷歌甚至建议在他们的应用程序中使用嵌套函数时尚指南 https google styleguide googlecode com svn trunk javascriptguide xml Nest
只读有运行时开销吗？

出于某种原因我一直认为readonly字段有与其相关的开销我认为这是 CLR 跟踪是否存在readonly字段是否已初始化这里的开销是一些额外的内存使用量用于跟踪状态以及分配值时的检查也许我这么认为是因为我不知道readonly字
对于双核手机，availableProcessors() 返回 1

我最近购买了一部 Moto Atrix 2 手机当我尝试查看手机中的处理器规格时 Runtime getRuntime availableProcessors 返回 1 proc cpuinfo 也仅包含有关处理器 0 的信息出于好奇
在Python列表中交换元素的最快方法

在Python中交换两个列表元素是否有比 L a L b L b L a 或者我必须求助于Cython http cython org or Weave http www scipy org Weave或类似的看起来 Python 编译器
在 nHibernate 关系中使用实体的 Lite 版本？

在某些情况下出于性能原因创建一个实体的轻量级版本指向同一个表但映射的列较少这是一个好主意吗例如如果我有一个包含 50 列的联系人表并且在一些相关实体中我可能对 FirstName 和 LastName 属性感兴趣那么创建
Draggable JS Bootstrap 模式 - 性能问题

对于工作中的项目我们在 JavaScript 中使用 Bootstrap Modal 窗口我们想让一些窗口可移动但我们遇到了 JQuery 的性能问题 myModal draggable handle modal header Exa
海量记录的bulk_create最佳实践

I use bulk create将 1 mio 记录插入到新表中需要 80 秒 Django 只使用一个 CPU 核心大约 25 CPU 但没有一个核心达到 100 我相信有改进的潜力这是代码 class Stock models
try-catch 块是否会降低性能[重复]

这个问题在这里已经有答案了 This link http www cplusplus com doc tutorial exceptions states 为了捕获异常我们必须将一部分代码放在异常下检查这是通过将这部分代码包含在 tr
JSON.stringify 对于大型对象来说非常慢

我在 javascript 中有一个非常大的对象大约 10MB 当我对其进行字符串化时需要很长时间因此我将其发送到后端并将其解析为一个对象实际上是带有数组的嵌套对象这也需要很长时间但这不是我们在这个问题中的问题问题我怎样才能
高效秒表

您好我正在用 javascript 编写一个秒表实用程序我有一个关于效率和开销的问题我考虑过两种制作秒表的方法 1 存储开始日期并不断测量自该日期以来经过的毫秒数 2 创建一个整数并按设定的时间间隔递增其值我想知道哪个最有效另外
Gtk/GtkD 在窗口调整大小时检测鼠标按钮的释放？

我正在尝试改进我用 GtkD Gtk 的 D 绑定编写的绘图库具有很多点的散点图需要很长时间才能调整大小我想重新缩放图像允许像素化同时用户拖动窗口边缘来调整大小并且仅在释放鼠标按钮时重新渲染它是否有 API 可以检测在调整窗口
会话重新启动后 AVcapture 会话启动缓慢

我有一个主视图控制器它连接到具有 avcapturesession 的第二个视图控制器我第一次从主视图控制器转向捕获会话控制器大约需要 50 毫秒使用仪器检查然后我从捕获会话返回到主视图控制器然后从主控制器返回到 avcap
如何知道Matlab中系统命令执行过程中经过的时间？

我有一个运行系统脚本的 Matlab 代码该脚本可能会因命令运行而停止我想知道是否有一种方法可以让程序知道它是否花费了很长时间并执行其他操作这是代码 tic status cmdout system iperfcmd The prog
SignalR 似乎正在减慢我的 MVC/Azure 应用程序的启动速度

我有一个 MVC 应用程序在 Windows Azure 上的 WebRole 上的 NET 4 5 下运行使用 SignalR 1 0 alpha2 并使用 ServiceBus 底板在我的 App Start 文件夹中我有 Reg
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht

随机推荐

如何列出 Rails 中的所有自动加载路径

如何列出 Rails 中的所有自动加载路径在 Rails 控制台中当我执行此操作时它仅列出添加到配置中的自定义路径 rails c Loading development environment Rails 3 2 9 1 9 3p1
如何将 Google 安全浏览 (v4) 与 .NET 结合使用

我正在尝试使用 Google 的安全浏览查找 API v4 https developers google com safe browsing v4 lookup api https developers google com safe b
=* sql 中的运算符

我正在打字手指很粗当我打字时在 sql 窗口中 2008 SSMS 连接到 2005 服务器它作为关键字变成蓝色我无法弄清楚或者谷歌这是做什么的我知道但不知道这个操作员是做什么的是一种编写右外连接的旧方法例如 sel
NodeJS 中不同路径的并行请求：长时间运行的路径 1 阻塞其他路径

我正在尝试简单的 NodeJS 应用程序以便我能够理解异步本质但我的问题是一旦我点击 home 从浏览器等待响应同时被击中它等待 home先回复再回复要求我担心的是如果其中一个请求需要大量处理那么我们不能同时请求另一个
有没有办法否定 .dockerignore 中的模式？

我试图否定 dockerignore 中的模式 Globbing 是使用 Go 的 filepath Match 规则完成的检查后source http golang org src pkg path filepath match go
Javafx 8：在初始化方法中填充 TableView

我是 JavaFX 8 的新手我正在尝试使用初始化方法向 TableView 提供控制器中的一些数据我看过很多关于它的话题尝试了很多东西但它对我不起作用我见过如何使用 FXML 和 JavaFX 动态填充 TableView h
Angular 2 - 如何显示多选下拉列表的选定选项？
Team Build 2012 是否与 Team Foundation Server 2010 兼容？

连接是一种什么体验团队建设 http en wikipedia org wiki Team Foundation Server Team Build2012年至团队基础服务器 http en wikipedia org wiki Team
如何计算根据条件选择的一组行中的元素数量？

我有一个大DataFrame有许多重复值唯一值存储在List1 我想做以下事情选择包含列表中存在的每个值的几行迭代选定的行并计算非 NaN 元素的数量如果计数值大于或等于2 则将其存储到新列表中中的每个组件List1应添加到eq
当read.table中5行之后出现不同数量的列时，fill=TRUE会失败吗？ [复制]

这个问题在这里已经有答案了假设我们有一个文件名test txt其中包含未知数量的列 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4
如何从 React Redux 中的子组件进行分派？

我的服务器有这样的代码
Android 多实例

我在android中的通知中遇到问题每当我单击通知时我都必须再次调用相同的活动但据我认为新的活动被调用但前一个活动也在后端运行因为我的代码一次又一次地运行因为有多个实例请帮助我如何在每次单击通知时解决或关闭多个实例 code
当文档窗口在 Visual Studio 中获得焦点时发生的事件

我在 Visual Studio 中有一个可扩展性项目我需要使用当我在 Visual Studio 编辑器中从一个窗口更改为另一个窗口时触发的事件我的问题是我创建了一个显示一些图表的工具窗口该图表依赖于一个可编辑文件当我保存可编辑
Nestjs同时设置http和https服务器

我正在尝试设置 http 和 https 服务器咨询了官方文件 https docs nestjs com faq multiple servers nest i System Information OS Version Windows
可从同一类的另一个实例访问私有字段[重复]

这个问题在这里已经有答案了我没有得到以下信息我一直认为我只能从声明该字段的类访问私有字段但是在这种情况下我可以访问它 class Session List
子类化用户控制的 GridView

我正在尝试对位于 UserControl 中的 GridView 进行子类化因此我希望能够在单独的页面中处理事件基本上我的代码如下我的带有 GridView 的 UserControl div div
二分查找，从 java 到 Actionscript

我正在尝试将以下 java 二进制搜索例程转换为 as3 我假设 compareTo 是内置的java方法而 gt gt gt 是一种按位运算任何熟悉 ActionScript 3 和 Java 的人都可以帮忙解决这个问题吗 packa
Excel 单元格值被 OLEDB 提供程序截断

我正在使用 OleDbConnection 类从 Excel 2000 2003 工作簿检索数据 string connectionString Provider Microsoft Jet OLEDB 4 0 Data Source fi
为什么垂直滚动条会自动移动？

例如我不明白为什么当单击 Line 9 时垂直滚动条会自动移动到最顶部位置进一步单击不会移动滚动条谁能解释为什么以及如何解决这个问题我使用 Firefox 3 6 3 HTML div div
Fortran 中对多个矩阵进行加权和求和的最有效方法

我正在尝试用 Fortran 编写一个函数将多个具有不同权重的矩阵相乘然后将它们加在一起形成一个矩阵我已经确定这个过程是我的程序的瓶颈这个权重将被many程序单次运行的时间具有不同的权重现在我正试图通过从 Matlab 切换到

Fortran 中对多个矩阵进行加权和求和的最有效方法

Fortran 中对多个矩阵进行加权和求和的最有效方法 的相关文章

随机推荐

热门标签

Fortran 中对多个矩阵进行加权和求和的最有效方法的相关文章