为什么我的 Matlab for 循环代码比我的矢量化版本更快

2024-01-06

我一直听说矢量化代码比 MATLAB 中的 for 循环运行得更快。然而，当我尝试向量化 MATLAB 代码时，它似乎运行得更慢。

I used tic and toc来测量时间。我只更改了程序中单个函数的实现。我的矢量化版本运行了47.228801秒，我的 for 循环版本运行了16.962089秒。

另外，在我的主程序中，我使用了大量的 N，N = 1000000数据集的大小是1 301，并且我针对具有相同大小和 N 的不同数据集运行每个版本多次。

为什么矢量化速度慢得多？如何进一步提高速度？

“矢量化”版本

function [RNGSet] = RNGAnal(N,DataSet)
%Creates a random number generated set of numbers to check accuracy overall
%   This function will produce random numbers and normalize a new Data set
%   that is derived from an old data set by multiply random numbers and
%   then dividing by N/2
randData = randint(N,length(DataSet));
tempData = repmat(DataSet,N,1);
RNGSet = randData .* tempData;
RNGSet = sum(RNGSet,1) / (N/2); % sum and normalize by the N
end

“for 循环”版本

function [RNGData] = RNGAnsys(N,Data)
%RNGAnsys This function produces statistical RNG data using a for loop
%   This function will produce RNGData that will be used to plot on another
%   plot that possesses the actual data
multData = zeros(N,length(Data));
for i = 1:length(Data)
    photAbs = randint(N,1); % Create N number of random 0's or 1's
    multData(:,i) = Data(i) * photAbs; % multiply each element in the molar data by the random numbers
end

sumData = sum(multData,1); % sum each individual energy level's data point
RNGData = (sumData/(N/2))'; % divide by n, but account for 0.5 average by n/2
end

矢量化

乍一看 for 循环代码告诉我们，因为photAbs是一个二进制数组，其每一列根据每个元素进行缩放Data，这个二进制特征可以用于矢量化。这在代码中被滥用了 -

function RNGData = RNGAnsys_vect1(N,Data)

%// Get the 2D Matrix of random ones and zeros
photAbsAll = randint(N,numel(Data));

%// Take care of multData internally by summing along the columns of the
%// binary 2D matrix and then multiply each element of it with each scalar 
%// taken from Data by performing elementwise multiplication
sumData = Data.*sum(photAbsAll,1);

%// Divide by n, but account for 0.5 average by n/2
RNGData = (sumData./(N/2))'; %//'

return;

经过分析，瓶颈似乎是随机二进制数组创建部分。因此，按照建议使用更快的随机二进制数组创建器这个智能解决方案 https://stackoverflow.com/a/25042251/3293881，上述函数可以进一步优化，如下所示 -

function RNGData = RNGAnsys_vect2(N,Data)

%// Create a random binary array and sum along the columns on the fly to
%// save on any variable space that would be required otherwise. 
%// Also perform the elementwise multiplication as discussed before.
sumData = Data.*sum(rand(N,numel(Data))<0.5,1);

%// Divide by n, but account for 0.5 average by n/2
RNGData = (sumData./(N/2))'; %//'

return;

使用智能二进制随机数组创建器，也可以优化原始代码，这将用于稍后优化 for 循环和矢量化代码之间的公平基准测试。这里列出了优化的 for 循环代码 -

function RNGData = RNGAnsys_opt1(N,Data)

multData = zeros(N,numel(Data));
for i = 1:numel(Data)

    %// Create N number of random 0's or 1's using a smart approach
    %// Then, multiply each element in the molar data by the random numbers
    multData(:,i) = Data(i) * rand(N,1)<.5; 
end

sumData = sum(multData,1); % sum each individual energy level's data point
RNGData = (sumData/(N/2))'; % divide by n, but account for 0.5 average by n/2
return;

标杆管理

基准测试代码

N = 15000; %// Kept at this value as it going out of memory with higher N's.
           %// Size of dataset is more important anyway as that decides how
           %// well is vectorized code against a for-loop code

DS_arr = [50 100 200 500 800 1500 5000]; %// Dataset sizes
timeall = zeros(2,numel(DS_arr));

for k1 = 1:numel(DS_arr)
    DS = DS_arr(k1);
    Data = rand(1,DS);

    f = @() RNGAnsys_opt1(N,Data);%// Optimized for-loop code
    timeall(1,k1) = timeit(f);
    clear f

    f = @() RNGAnsys_vect2(N,Data);%// Vectorized Code
    timeall(2,k1) = timeit(f);
    clear f
end

%// Display benchmark results
figure,hold on, grid on
plot(DS_arr,timeall(1,:),'-ro')
plot(DS_arr,timeall(2,:),'-kx')
legend('Optimized for-loop code','Vectorized code')
xlabel('Dataset size ->'),ylabel('Time(sec) ->')
avg_speedup = mean(timeall(1,:)./timeall(2,:))
title(['Average Speedup with vectorized code = ' num2str(avg_speedup) 'x'])

Results

结束语

根据我迄今为止的经验MATLAB，for 循环和向量化技术都不适合所有情况，但一切都是针对具体情况的。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

performance

MATLAB

vector

vectorization

为什么我的 Matlab for 循环代码比我的矢量化版本更快的相关文章

ElasticSearch 匹配多个前缀术语

我试图为 ElasticSearch 提供一个包含多个术语的查询然后给出匹配的文档其中指定的术语位于目标字段中的任何位置这些术语可以是完整的单词或单词前缀示例文档 msg 你好我是一条短信示例查询字符串你好消息你好和消息
如何提高 Field.set 的性能（也许使用 MethodHandles）？

我正在编写一些调用的代码Field set https docs oracle com en java javase 11 docs api java base java lang reflect Field html set java l
cudaMalloc使用向量>进行管理 > C++ - NVIDIA CUDA

我正在通过 NVIDIA GeForce GT 650M GPU 为我创建的模拟实现多线程为了确保一切正常工作我创建了一些辅助代码来测试一切是否正常在某一时刻我需要更新变量向量它们都可以单独更新这是它的要点 device int
isinstance（foo，types.GeneratorType）还是inspect.isgenerator（foo）？

Python中似乎有两种方法来测试一个对象是否是生成器 import types isinstance foo types GeneratorType or import inspect inspect isgenerator foo 本着
MySQL InnoDB 查询性能

我正在尝试优化一个简单的 sql 查询该查询将多次运行大量数据这是场景 MySQL 与 InnoDB 表 where 和 join 中使用的所有字段都已索引表有 FK 我不需要查询的整个缓存但每个表的缓存是可能的表有更多的更新插
空 while 循环有什么影响？

我知道这可能是一个有点愚蠢的问题但有时我只想循环直到条件为假但我不喜欢让循环保持为空所以代替 Visible true while IsRunning Visible false 我通常prefer while IsRunnin
理解高斯混合模型的概念

我试图通过阅读在线资源来理解 GMM 我已经使用 K 均值实现了聚类并且正在了解 GMM 与 K 均值的比较以下是我的理解如有错误请指出 GMM 类似于 KNN 在这两种情况下都实现了聚类但在 GMM 中每个簇都有自己独立的均值和
非阻塞方法中的饥饿

一段时间以来我一直在阅读有关非阻塞方法的内容这是一段所谓的无锁计数器的代码 public class CasCounter private SimulatedCAS value public int getValue return va
去除字符串的最佳方法是什么？

我需要具有最佳性能的想法来删除过滤字符串 I have string Input view 512 3 159 删除 view 和的最佳性能方法是什么和引号我可以做这个 Input Input Replace view Replac
C# 写入文件的性能

我的情况概述我的任务是从文件中读取字符串并将它们重新格式化为更有用的格式重新格式化输入后我必须将其写入输出文件这是必须完成的操作的示例文件行示例 ANO 2010 CPF 17834368168 YEARS 2010 2009
如何找到 IIS 在负载/性能测试期间模拟的平均并发用户数？

我正在使用 JMeter 进行负载测试我正在练习通过简单地增加我的分布式 JMeter 测试用例中的线程数并启动测试来查找我们的网络服务器可以处理的最大并发线程用户数量然后我突然意识到虽然 MAX 数字可能有用但REAL我的网
双线性序列给出奇数结果

我试图让我的表现技能不存在达到标准但在将公式写入代码时遇到了问题这是我试图将其引用为转换为代码的公式考虑一个序列 u 其中 u 定义如下号码u 0 1是第一个u 对于每个x in u then y 2 x 1 and z 3
只读有运行时开销吗？

出于某种原因我一直认为readonly字段有与其相关的开销我认为这是 CLR 跟踪是否存在readonly字段是否已初始化这里的开销是一些额外的内存使用量用于跟踪状态以及分配值时的检查也许我这么认为是因为我不知道readonly字
3D 数组到 3D std::vector

我在代码函数中用 3D std vector 替换了 3D 数组它进入了无限循环你能给我一个提示吗我真的需要使用向量而不是数组谢谢我最初的代码是 arr is a 3D array of a sudoku table the 3
SQLite .NET 性能，如何加快速度？

在我的系统上约 86000 个 SQLite 插入需要长达 20 分钟意味着每秒约 70 个插入我要做数百万我怎样才能加快速度对每一行的 SQLiteConnection 对象调用 Open 和 Close 会降低性能吗交易有帮
从开始/结束索引列表创建向量化数组

我有一个两列矩阵M包含一堆间隔的开始结束索引 startInd EndInd 1 3 6 10 12 12 15 16 如何生成所有区间索引的向量 v 1 2 3 6 7 8 9 10 12 15 16 我正在使用循环执行上述操作但我想
在matlab中绘制给定区域内（两个圆之间）的向量场

我想在 Matlab 中绘制下面的向量场 u cos x x 0 y y 0 v sin x x 0 y y 0 我可以在网格中轻松完成例如 x 和 y 方向从 2 到 2 x 0 2 y 0 1 x y meshgrid 2 0 2 2
使用 enum.values() 与字符串数组相比，性能是否会受到影响？

我正在使用枚举来替换String我的 java 应用程序 JRE 1 5 中的常量当我在不断调用的方法中将枚举视为名称的静态数组时例如在渲染 UI 时是否会对性能造成影响我的代码看起来有点像这样 public String get
是否可以提高 Mongoexport 速度？

我有一个 1 3 亿行的 MongoDB 3 6 2 0 集合它有几个简单的字段和 2 个带有嵌套 JSON 文档的字段数据以压缩格式 zlib 存储我需要尽快将其中一个嵌入字段导出为 JSON 格式然而 mongoexport 需
检测数据集中线性行为的算法

我已经发布了一个关于对数据集的一部分进行多项式拟合的算法 https stackoverflow com q 17595932 2320757前一段时间收到一些建议去做我想做的事但我现在面临另一个问题我尝试应用答案中建议的想法我的目标

随机推荐

MyBatis - 一对多 - 未为映射列设置值

我正在使用 MyBatis 访问数据库为此我开设了以下课程 class ClassA private int id private List
MS SQL Server 2005 - 存储过程“自发中断”

客户端在执行存储过程时重复报告非常奇怪的行为他们的代码可以运行易失性数据集的缓存转置如果满足以下条件则编写存储过程来按需重新处理数据集 1 自上次重新处理以来数据集发生了变化2 数据集5分钟内没有变化第二个条件在变化期间停止大量重复
在 R 中绘制数据；错误：类型“列表”未实现默认方法

我正在尝试在 ggplot 中绘制数据我也尝试了来自 github 的 CRAN 版本但最终出现错误 Error in is finite x default method not implemented for type list 这
默认情况下如何使手风琴打开第一个元素？

我在我的项目中使用引导手风琴这里正在工作fiddler http jsfiddle net 68gk8 237 这是 HTML 代码 div div div div
.NET Framework 4.5 目录在哪里？

我已经安装了 Windows 8 Visual Studio 2012 但没有 v4 5 目录 WINDIR Microsoft NET Framework 我是否做错了什么或者 NET 4 5 与其他版本不同如果是因为我没有安装工具
我需要什么 uri 模式才能从手持设备与 PC 进行通信？

正如我被提醒的那样here https stackoverflow com questions 22306678 why am i getting unable to connect to the remote server 我可能需要使用
何时子类化而不是区分行为

我很难决定何时应该子类化而不是仅仅添加代表类的不同模式的实例变量然后让类的方法根据所选模式起作用例如假设我有一个base car班级在我的程序中我将处理三种不同类型的汽车赛车 busses and 家庭型号每个人都有自己的齿
将文本附加到文件末尾

我使用下面的代码段在每次调用时将文本写入文件末尾但是它会擦除旧数据然后将新数据写入文件的开头如何修复以下代码以便附加新数据always文件末尾 public boolean writeToFile String directory
Tweepy 搜索查询问题

我正在开发一个使用 Twitter 的 REST API 分析数据的程序我希望使用具有多个关键字的查询来获取我正在寻找的结果但是我在使用搜索查询获取特定结果时遇到问题我已按照文档使用 OR 搜索多个单词但它仅在一定程度上有效在此
在Shiny中获取用户IP

有没有办法获取访问闪亮应用程序的人的IP 希望有一个 R Shiny 解决方案但我也可以接受 javascript 解决方案我想对 IP 进行反向地理编码以制作图表来可视化大多数用户从哪些国家地区访问该应用程序然后将该信息放入应用
在 UICollectionView/UITableView 中对滚动视图的偏移进行动画处理会导致单元格过早消失

我们有一个 UICollectionView 其自定义布局与 UITableView 非常相似它垂直滚动 UICollectionView 仅同时显示 3 个单元格其中之一是当前活动的单元格 1 2 3 此处的活动单元格为 2 单元格
如何获取Lua哈希表中键的数量？

myTable myTable foo 12 myTable bar blah print myTable this prints 0 我实际上是否必须迭代表中的项目才能获取键的数量 numItems 0 for k v in pairs
如何向字符串添加度数符号？

我正在用 Objective C 编写如何向字符串添加度数符号我知道它的unicode 00B0和 UTF8 C2 B0 使用字符串文字 u00B0 对于 Unicode 字符它始终是 u 后跟字符代码 NSString temper
无法与空值合并； neo4j 中“无法使用 null 属性值合并节点”

我的 csv 中有一个列如下所示我正在使用此代码来测试日期分割的工作原理 LOAD CSV WITH HEADERS FROM file some csv csv AS line WITH SPLIT line date of birt
关于循环排列

我学过数学然后我就想到了这个问题有两个排列 A 和 B 以及一个整数 M 如果我们可以从 A 到 B 进行以下操作我们就说 A 几乎等于 B 1 选择排列 A 的 M 长度段 2 对其进行向右循环移位因此如果子段是 1 2 3 4
基于视图状态在 Page_PreRender 中创建动态控件会导致按钮 OnClick 事件不起作用

我意识到应该在 Page Load 和 Page Init 中创建动态控件以便将它们注册到控件树中我创建了一个自定义控件需要在按钮 OnClick 事件中使用 ViewState 然后使用此 ViewState 动态创建控件由于生命
两行代码的冲突使代码无法按照我的意思工作，我可以做些什么不同的事情来完成这项工作（？）

尝试自己运行以下代码您会注意到 can t 更改为 CAN t 但我希望它更改为 CAN NOT 另一方面我想保留第一行代码它将 can 更改为 CAN 我怎样才能实现这个 can CAN can t CAN NOT 您必须删除从默
复数如何捕获 FFT 结果中的相位、幅度和频率？

据我了解幅度和相位是在 fft 结果的实部和虚部中捕获的但每个样本如何捕获相位呢相位与时域中提供的 N 个离散样本相关吗也就是说如果输入样本一秒钟包含 44100 个样本那么 FFT 的每个结果值是否代表相位的 1 44100
如何在CSS中获得图像周围的白色轮廓

我正在尝试设置周围有白色边框的图像样式如下所示如果我这样做 ul class learn li class thumbnaile img src assets allyson jpg class stretch li ul 然后向 th
为什么我的 Matlab for 循环代码比我的矢量化版本更快

我一直听说矢量化代码比 MATLAB 中的 for 循环运行得更快然而当我尝试向量化 MATLAB 代码时它似乎运行得更慢 I used tic and toc来测量时间我只更改了程序中单个函数的实现我的矢量化版本运行了47 22

为什么我的 Matlab for 循环代码比我的矢量化版本更快

矢量化

标杆管理

为什么我的 Matlab for 循环代码比我的矢量化版本更快 的相关文章

随机推荐

热门标签

为什么我的 Matlab for 循环代码比我的矢量化版本更快的相关文章