为什么 C++ 编译器不做更好的常量折叠？

2024-02-03

我正在研究加速大部分 C++ 代码的方法，该代码具有用于计算雅可比的自动导数。这涉及在实际残差中做一些工作，但大部分工作（基于分析的执行时间）是计算雅可比矩阵。

这让我感到惊讶，因为大多数雅可比都是从 0 和 1 向前传播，所以工作量应该是函数的 2-4 倍，而不是 10-12 倍。为了模拟大量的雅可比工作是什么样的，我做了一个超级简单的例子，其中只有一个点积（而不是真实情况下的 sin、cos、sqrt 等），编译器应该能够优化为单个返回值：

#include <Eigen/Core>
#include <Eigen/Geometry>

using Array12d = Eigen::Matrix<double,12,1>;

double testReturnFirstDot(const Array12d& b)
{
    Array12d a;
    a.array() = 0.;
    a(0) = 1.;
    return a.dot(b);
}

这应该是相同的

double testReturnFirst(const Array12d& b)
{
    return b(0);
}

我很失望地发现，如果没有启用快速数学，GCC 8.2、Clang 6 或 MSVC 19 都无法对全 0 矩阵的简单点积进行任何优化。即使使用快速数学（https://godbolt.org/z/GvPXFy https://godbolt.org/z/GvPXFy）GCC和Clang中的优化很差（仍然涉及乘法和加法），而MSVC根本不做任何优化。

我没有编译器背景，但这有原因吗？我相当确定，在很大一部分科学计算中，能够更好地进行恒定传播/折叠将使更多优化变得明显，即使恒定折叠本身并没有导致加速。

虽然我对为什么不在编译器方面完成此操作的解释感兴趣，但我也对在面对此类模式时在实际方面可以做些什么以使我自己的代码更快感兴趣。

这是因为 Eigen 将代码显式矢量化为剩余 4 个分量寄存器内的 3 个 vmulpd、2 个 vaddpd 和 1 个水平缩减（假设 AVX，仅使用 SSE，您将获得 6 个 mulpd 和 5 个 addpd）。和-ffast-mathGCC 和 clang 被允许删除最后 2 个 vmulpd 和 vaddpd （这就是他们所做的），但它们不能真正取代 Eigen 显式生成的剩余 vmulpd 和水平缩减。

那么，如果您通过定义禁用 Eigen 的显式矢量化会怎么样？EIGEN_DONT_VECTORIZE？然后你就得到了你所期望的（https://godbolt.org/z/UQsoeH https://godbolt.org/z/UQsoeH）但其他代码片段可能会变得慢得多。

如果你想在本地禁用显式矢量化并且不怕弄乱 Eigen 的内部，你可以引入一个DontVectorize选项Matrix并通过专门化禁用矢量化traits<>为了这Matrix type:

static const int DontVectorize = 0x80000000;

namespace Eigen {
namespace internal {

template<typename _Scalar, int _Rows, int _Cols, int _MaxRows, int _MaxCols>
struct traits<Matrix<_Scalar, _Rows, _Cols, DontVectorize, _MaxRows, _MaxCols> >
: traits<Matrix<_Scalar, _Rows, _Cols> >
{
  typedef traits<Matrix<_Scalar, _Rows, _Cols> > Base;
  enum {
    EvaluatorFlags = Base::EvaluatorFlags & ~PacketAccessBit
  };
};

}
}

using ArrayS12d = Eigen::Matrix<double,12,1,DontVectorize>;

完整的例子在那里：https://godbolt.org/z/bOEyzv https://godbolt.org/z/bOEyzv

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么 C++ 编译器不做更好的常量折叠？的相关文章

Linux 使用 boost asio 拒绝套接字绑定权限

我在绑定套接字时遇到问题并且以用户身份运行程序时权限被拒绝这行代码会产生错误 acceptor new boost asio ip tcp acceptor io boost asio ip tcp endpoint boost asi
使用 JSON 格式正确配置 NLog 到 IHostBuilder

我有以下代码应该接受 NLog 的 JSON appsettings 配置然后使用它来创建 NLog LogFactory 这个 NLog 工厂应该被传递到 MyService 类中以便在那里创建一个记录器 class Program
每次调用新方法时触发事件

我正在做一个logger for a c 应用程序需要记录每个方法被调用的时间以及每个方法执行时间我可以通过调用自己的方法来做到这一点EventLogger LogMethodCall方法在每个方法的开头但我想知道是否有办法使CLR每次
无缝滚动瓷砖地图

我正在开发一个自上而下的角色扮演游戏并且想要实现无缝滚动地图也就是说当玩家探索世界时地图之间没有加载屏幕也没有通往下一个区域的门我有两种方法可以打破世界在顶层我有区域它只是 9 个地图的集合这些区域仅由目录表示
如何使用boost库读取和写入.ini文件[重复]

这个问题在这里已经有答案了如何使用boost库读取和写入或修改 ini文件 With Boost PropertyTree您可以读取并更新树然后写入文件请参阅load and save功能看一下如何访问属性树中的数据 http w
求一个数的因数。无法得到准确的结果

有人可以帮助纠正我的算法吗我已经对几个数字进行了测试但它没有输出完整的因式分解对于具有大量因子的数字它完全失败 int num 20 for int i 2 i lt num i if num i 0 cout lt lt i lt
在 C++ 中使用表达式模板进行符号微分

如何在 C 中使用表达式模板实现符号微分一般来说您需要一种表示符号的方法即编码的表达式模板例如3 x x 42 以及一个可以计算导数的元函数希望您对 C 中的元编程足够熟悉知道这意味着什么和需要什么但可以给您一个想法 This
是否有一种算法可以在线性时间内计算数组反转？

我知道有多少倒转 en wikipedia org wiki Inversion 28discrete mathematics 29 in an n 元素数组可以在 O n log n 操作使用增强型归并排序 http www geeksf
捕获另一个进程未处理的异常

我想知道我是否可以捕获我开始使用 Process Start 的另一个进程抛出的未处理的异常我知道我可以用这个捕获标准错误link http social msdn microsoft com Forums en US csharpgen
C++ 错误：从“char”到“const char*”的转换无效

我对 C 完全陌生我创建了这个函数 bool guessWord string compWord cout lt lt Guess a letter string userLetter cin gt gt userLetter for u
Visual Studio Code 调试默认 ASP.NET Core MVC WebApp：不起作用

我正在使用 Manjaro linux 并尝试调试默认的 ASP NET Core MVC 项目但调试停止没有任何错误我创建了该项目 dotnet new mvc in a Meow文件夹没什么特别的然后添加了新的配置 NET C
将一个整数从 C 客户端发送到 Java 服务器

我使用此代码将一个整数从我的 Java 客户端发送到我的 Java 服务器 int n rand nextInt 50 1 DataOutputStream dos new DataOutputStream socket getOutput
按值返回的函数的返回语句中的初始化

我的问题源于深入研究std move in return语句例如以下示例 struct A A std cout lt lt Constructed lt lt this lt lt std endl A A noexcept std c
printf() 使用字符串表“解码器环”调试库

我写这封信是想看看你们中是否有人见过或听说过我即将描述的想法的实现我有兴趣为嵌入式目标开发 printf 风格的调试库目标非常遥远并且我和目标之间的通信带宽预算非常紧张因此我希望能够以非常有效的格式获取调试消息通常调试语句如下所
从 exit() 和 fork() 返回的结果奇怪地发生了位移

我有一个 C 代码有时会自行分叉每个分叉都会执行一些操作然后返回一个错误代码目前每个子进程返回其 ID 0 n void other int numero exit numero int main for int i 0 i lt
如何使用 xamarin 表单提示用户进行地理定位

我正在 Xamarin Forms 应用程序中开发一个应用程序需要请求地理位置权限如果获得许可它需要从设备获取地理位置数据然后将地理位置坐标放入 Forecast io URL 我正在使用 James 的 Geolocator 插件
字符串 c 的二叉树

我正在尝试实现一个能够在 c 中保存字符串的二叉树在让代码适用于整数之后我尝试稍微修改它以处理字符数组现在我似乎完全破解了代码但不知道如何破解任何帮助表示赞赏 include
如何在给定点停止线程？

我试图停止一些线程阅读一些有关优雅地执行此操作的正确方法的内容但我一定做错了什么因为它根本不起作用起初我尝试不使用lock with IsRunning不稳定然后尝试使用锁这是我所拥有的 private volatile boo
从 STL 列表中删除项目

我想创建一个函数如果符合特定条件则将项目从一个 STL 列表移动到另一个列表这段代码不是这样做的方法迭代器很可能会被擦除函数失效并导致问题 for std list
类模板的 C++ 静态成员 - 链接器警告“多重定义”[重复]

这个问题在这里已经有答案了假设出于某种原因我想要一个类模板 MyTemp 和一些静态数据成员 smDummyVar Mytemp h ifndef MY TEMP H define MY TEMP H template

随机推荐

如何使用 HTML5 Geolocation API 实现承诺？

我怎样才能更正下面的代码使其不返回undefined的值getPreciseLocation功能总之当用户点击时应该有一个 AJAX 调用来获取当前天气 precise location prompt并与浏览器共享位置然而目前有一
为什么“NOT IN”在这个 NSPredicate 中不起作用？

A b and B a是逆多关系为什么这个谓词是A work NSPredicate predicate NSPredicate predicateWithFormat NOT SELF IN bObject a 而这个则没有 NSPre
如何在 websocket python 中发送“标头”

我怎样才能做到这一点这是我的代码 import websockets async def test async with websockets connect ws iqoption com as websocket response a
在浏览器之外使用 Websockets 有什么充分的理由吗？

Websocket 专为浏览器中的快速双向通信而设计假设您可以控制服务器和本机客户端例如 iOS 或 Mac 应用程序是否有任何充分的理由或情况可以通过 Websocket 进行通信而不是使用 HTTP 库我将回答几个不同的问题希
tableview图像内容选择颜色

我的应用程序有一个带有图像和文本字段的表格视图 image 图像渲染为模板图像浅灰色文本字段文本颜色黑色如果我选择一行两者的颜色都会完美地变为白色问题我将图像更改为蓝色图像默认渲染如果我现在选择一行文本字段的文本颜色将更
在 fp-ts 的管道中混合 Either 和 TaskEither

当没有一个函数是异步的时我有以下程序可以正常工作 interface Product count number pricePerItem number interface Tax tax number interface Delivery
UITableView 上的动画 reloadData

你会怎样动漫 reloadData on UITableView 数据源已开启UIFetchedResultsController所以我不能玩 insertSections withRowAnimation deleteSections w
从 UITableView 中的 URL 加载图像速度缓慢。

我正在从 UITableView 中的 URL 加载图像但加载视图时速度非常慢这是一个例子 UIImage image nil image UIImage imageWithData NSData dataWithContentsOfU
asp.net c# 中是否有等效的 echo

我有一个 php 代码我已将其转换为 asp net 代码 PHP 代码只是回显客户端读取和解释的响应但是在 asp net 中生成的输出被迫采用 html 格式这正是因为我使用 asp net 标签来打印输出有没有一种方法可以实
将整个文档移动到 iframe 中

我想做的是将一个完整的网站包装在一个iframe不破坏任何样式或 JavaScript 这是我尝试过的 var frame css position fixed top 0 left 0 width 100 height 100 appen
Spring @Autowired 不工作 - BeanCreationException

当我尝试在服务器上部署文件时发生错误我很困惑因为这段代码有效例外 Failed to enable lec2ear 1 0 ear Unexpected HTTP response 500 Request address gt dep
如何仅使用标准网络库发送 HTTP 响应？

我正在 Web 编程课程中完成我的第一个作业项目即用 Java 编写一个简单的 Web 服务器我正处于来回传输数据的阶段在未经训练的人看来我的小型服务器似乎工作正常但是我找不到发送适当回复的方法换句话说无效的页面请求将显示
现有字符串加倍

如何将现有字符串更改为双精度字符串我有这样的代码声明为字符串但实际上它从数据库获取数字我正在做数字转换但现在我不想将其转换为字符串并将其一路获取为数字 private String example1 example1 new Str
我可以拆分grails的config.groovy文件吗？

由于里面有敏感代码config groovy文件我担心我的朋友会犯这个文件中的错误当得到svn更新后我们也会得到有问题的配置代码我可以将代码拆分为config groovy是否可以使敏感代码保持不变而其他代码可以经常更改在主配置
Matlab模拟：点（符号）从起点移动到终点并返回

我想创建一个动画来演示基于 LDPC 编码和积算法 http en wikipedia org wiki Belief propagation 到目前为止我已经创建了一个图表显示符号节点左和奇偶校验节点右之间的连接替代文本htt
您将如何使用 Sklearn 的 VotingClassifier 进行 RandomizedSearchCV ？

我正在尝试调整我的投票分类器我想在 Sklearn 中使用随机搜索但是由于我当前使用两种算法不同的树算法如何为我的投票分类器设置参数列表我是否必须单独运行随机搜索并稍后在投票分类器中将它们组合在一起有人可以帮忙吗代码示例将受
Docker Maven Spotify 插件 - 可以切换到非安全注册表

我正在使用Spotify Maven 插件 http mvnrepository com artifact com spotify docker maven plugin在执行某些 Maven 目标时自动构建和部署 docker 镜像但是
jQuery if 语句，语法

什么是一个简单的 jQuery 语句该语句声明仅当 A 和 B 为 true 时操作才会继续如果 A 不为真则停止如果 A 和 B 为真则继续 jQuery 只是一个增强 Web 浏览器中 DOM 功能的库底层语言是 JavaS
使用 org.postgresql.core.Utils.escapeLiteral 足以防止 SQL 注入吗？

在构建 SQL 查询和更新以提交到我的数据库之前我需要清理一些用户输入的数据我知道最好使用准备好的陈述 https www owasp org index php SQL Injection Prevention Cheat Sheet
为什么 C++ 编译器不做更好的常量折叠？

我正在研究加速大部分 C 代码的方法该代码具有用于计算雅可比的自动导数这涉及在实际残差中做一些工作但大部分工作基于分析的执行时间是计算雅可比矩阵这让我感到惊讶因为大多数雅可比都是从 0 和 1 向前传播所以工作量应该是函数的

为什么 C++ 编译器不做更好的常量折叠？

为什么 C++ 编译器不做更好的常量折叠？ 的相关文章

随机推荐

热门标签

为什么 C++ 编译器不做更好的常量折叠？的相关文章