SSE加载和添加

2024-04-15

假设我有两个由两个类型数组表示的向量double，每个尺寸为2。我想添加相应的位置。所以假设向量i0 and i1，我想补充一下i0[0] + i1[0] and i0[1] + i1[1]一起。

由于类型是double，我需要两个寄存器。诀窍是把i0[0] and i1[0] , and i0[1] and i1[1]在另一个中，只需添加寄存器本身即可。

我的问题是，如果我打电话_mm_load_ps(i0[0])进而_mm_load_ps(i1[0])，是否会将它们分别放入低位和高位 64 位，或者将用第二个寄存器替换寄存器load？我如何将两个双打放在同一个寄存器中，这样我就可以调用add_ps after?

我想你想要的是这样的：

double i0[2];
double i1[2];

__m128d x1 = _mm_load_pd(i0);
__m128d x2 = _mm_load_pd(i1);
__m128d sum = _mm_add_pd(x1, x2);
// do whatever you want to with "sum" now

当你做一个_mm_load_pd，它将第一个 double 放入寄存器的低 64 位，将第二个 double 放入寄存器的高 64 位。因此，在完成上述负载之后，x1持有两个double values i0[0] and i0[1]（和类似的x2）。致电给_mm_add_pd垂直添加相应元素x1 and x2，所以相加后，sum holds i0[0] + i1[0]在其低 64 位和i0[1] + i1[1]在其高 64 位中。

Edit:我应该指出，使用没有任何好处_mm_load_pd代替_mm_load_ps。正如函数名称所示，pdvariety 显式加载两个打包双精度数，并且ps版本加载四个打包的单精度浮点数。由于这些纯粹是逐位内存移动，并且它们都使用 SSE 浮点单元，因此使用不会有任何损失_mm_load_ps加载double数据。而且，还有一个好处_mm_load_ps：它的指令编码比短一个字节_mm_load_pd，因此从指令缓存意义上来说它更高效（以及潜在的指令解码；我不是现代 x86 处理器所有复杂性的专家）。上面的代码使用_mm_load_ps看起来像：

double i0[2];
double i1[2];

__m128d x1 = (__m128d) _mm_load_ps((float *) i0);
__m128d x2 = (__m128d) _mm_load_ps((float *) i1);
__m128d sum = _mm_add_pd(x1, x2);
// do whatever you want to with "sum" now

强制转换没有隐含任何函数；它只是使编译器将 SSE 寄存器的内容重新解释为保存双精度数而不是浮点数，以便可以将其传递到双精度算术函数中_mm_add_pd.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

SSE加载和添加的相关文章

Web 客户端和 Expect100Continue

使用 WebClient C NET 时设置 Expect100Continue 的最佳方法是什么我有下面的代码我仍然在标题中看到 100 continue 愚蠢的 apache 仍然抱怨 505 错误 string url http
动态加载程序集的应用程序配置

我正在尝试将模块动态加载到我的应用程序中但我想为每个模块指定单独的 app config 文件假设我的主应用程序有以下 app config 设置
在结构中使用 typedef 枚举并避免类型混合警告

我正在使用 C99 我的编译器是 IAR Embedded workbench 但我认为这个问题对于其他一些编译器也有效我有一个 typedef 枚举其中包含一些项目并且我向该新类型的结构添加了一个元素 typedef enum fo
秒表有最长运行时间吗？

多久可以Stopwatch在 NET 中运行如果达到该限制它会回绕到负数还是从 0 重新开始 Stopwatch Elapsed返回一个TimeSpan From MSDN https learn microsoft com en us
不支持将数据直接绑定到存储查询（DbSet、DbQuery、DbSqlQuery）

正在编码视觉工作室2012并使用实体模型作为我的数据层但是当页面尝试加载时上面提到的标题我使用 Linq 语句的下拉控件往往会引发未处理的异常下面是我的代码 using AdventureWorksEntities dw new
如何使用 ICU 解析汉字数字字符？

我正在编写一个使用 ICU 来解析由汉字数字字符组成的 Unicode 字符串的函数并希望返回该字符串的整数值五 gt 5 三十一 gt 31 五千九百七十二 gt 5972 我将区域设置设置为 Locale getJapan 并使用
Clang 3.1 + libc++ 编译错误

我已经构建并安装了在前缀下 alt LLVM Clang trunk 2012 年 4 月 23 日在 Ubuntu 12 04 上成功使用 GCC 4 6 然后使用此 Clang 构建的 libc 当我想使用它时我必须同时提供 lc
如何从 appsettings.json 文件中的对象数组读取值

我的 appsettings json 文件 StudentBirthdays Anne 01 11 2000 Peter 29 07 2001 Jane 15 10 2001 John Not Mentioned 我有一个单独的配置类 p
堆栈溢出：堆栈空间中重复的临时分配？

struct MemBlock char mem 1024 MemBlock operator const MemBlock b const return MemBlock global void foo int step 0 if ste
WCF 中 SOAP 消息的数字签名

我在 4 0 中有一个 WCF 服务我需要向 SOAP 响应添加数字签名我不太确定实际上应该如何完成我相信响应应该类似于下面的链接中显示的内容 https spaces internet2 edu display ISWG Signe
控件的命名约定[重复]

这个问题在这里已经有答案了 Microsoft 在其网站上提供了命名指南 here http msdn microsoft com en us library xzf533w0 VS 71 aspx 我还有框架设计指南一书我找不到有关
垃圾收集器是否在单独的进程中运行？

垃圾收集器是否在单独的进程中启动例如如果我们尝试测量某段代码所花费的进程时间并且在此期间垃圾收集器开始收集它会在新进程上启动还是在同一进程中启动它的工作原理如下吗 Code Process 1 gt Garbage Collect
什么时候虚拟继承是一个好的设计？ [复制]

这个问题在这里已经有答案了 EDIT3 请务必在回答之前清楚地了解我要问的内容有 EDIT2 和很多评论有或曾经有很多答案清楚地表明了对问题的误解我知道这也是我的错对此感到抱歉嗨我查看了有关虚拟继承的问题 class B p
如何使用 C# / .Net 将文件列表从 AWS S3 下载到我的设备？

我希望下载存储在 S3 中的多个图像但目前如果我只能下载一个就足够了我有对象路径的信息当我运行以下代码时出现此错误遇到错误消息读取对象时访问被拒绝我首先做一个亚马逊S3客户端基于我的密钥和访问配置的对象连接到服务器然后创
对现有视频添加水印

我正在寻找一种用 C 在视频上加水印的方法就像在上面写文字一样图片或文字标签我该怎么做谢谢您可以使用 Nreco 视频转换器代码看起来像 NReco VideoConverter FFMpegConverter wrap new
如何从两个不同的项目中获取文件夹的相对路径

我有两个项目和一个共享库用于从此文件夹加载图像 C MainProject Project1 Images 项目1的文件夹 C MainProject Project1 Files Bin x86 Debug 其中有project1 ex
通过指向其基址的指针删除 POD 对象是否安全？

事实上我正在考虑那些微不足道的可破坏物体而不仅仅是POD http en wikipedia org wiki Plain old data structure 我不确定 POD 是否可以有基类当我读到这个解释时is triviall
将控制台重定向到 .NET 程序中的字符串

如何重定向写入控制台的任何内容以写入字符串对于您自己的流程 Console SetOut http msdn microsoft com en us library system console setout aspx并将其重定向到构建在
基于 OpenCV 边缘的物体检测 C++

我有一个应用程序我必须检测场景中某些项目的存在这些项目可以旋转并稍微缩放更大或更小我尝试过使用关键点检测器但它们不够快且不够准确因此我决定首先使用 Canny 或更快的边缘检测算法检测模板和搜索区域中的边缘然后匹配边缘以查
C++ 中类级 new 删除运算符的线程安全

我在我的一门课程中重新实现了新删除运算符现在我正在使我的代码成为多线程并想了解这些运算符是否也需要线程安全我在某处读到 Visual Studio 中默认的 new delete 运算符是线程安全的但这对于我的类的自定义 new

随机推荐

Dart future 阻塞主线程

我正在开发一个捕获和处理图像的应用程序代码的简化版本是 build return FloatingActionButton onPressed processImage child Icon Icons camera alt color
计算numpy中2个点列表的距离

我有 2 个点列表作为 numpy ndarray 每一行都是一个点的坐标例如 a np array 1 0 0 0 1 0 0 0 1 b np array 1 1 0 0 1 1 1 0 1 这里我想计算2个列表中所有点对之间的欧氏距
Windows Server 2012 R2 上通过 SSL 的 AD LDS

我正在尝试将我的 AD LDS 实例配置为通过 SSL 运行以便我可以使用我的应用程序从另一台计算机连接到它并执行密码更改操作我安装了证书颁发机构来创建一个服务器证书我可以在我的 AD LDS 实例上使用该证书我将证书添加到 AD
Quill：如何防止工具栏滚动并设置高度？

我正在尝试遵循以下示例https quilljs com playground autogrow height https quilljs com playground autogrow height但在设置编辑器框的高度并防止工具栏滚动到
在 Ubuntu 9.10 中安装 play-framework

我已从 playframework org 网站复制了压缩文件并将其解压缩到某个位置我已将其插入到我的 bashrc 配置文件中以设置为 PATH 环境但仍然无法从任何地方访问播放命令即使在框架的安装目录中播放文件也没有按原样运行
将 Selenium WebDriver 连接到现有浏览器会话

我正在使用 selenium 如果当前存在现有浏览器会话对于我来说 Chrome 我想附加一个 webdriver 实例我不想打开新的浏览器窗口会话我用谷歌搜索发现有一些方法可以通过这些网站上的描述来做到这一点通过扩展 Remo
file.canWrite() 说“true”，但我无法在可移动存储上写入（kit kat）

我收到来自相机的意图其中包含在此路径中拍摄的照片 storage extSdCard DCIM Camera photoCaptured jpg 我想调整图像的大小已经这样做了并在同一路径中覆盖我可以在 2 3 4 1 和 4 3
如何使用定时器和不同的线程让代码顺利运行

我试图阻止 GUIfreezing 因为定时器间隔很短并且需要处理的内容太多Timer Tick事件处理程序我已经用谷歌搜索了一段时间我了解到我无法从 UI 线程以外的任何其他线程更新 UI 那么如果您在下面使用大量控件怎么办 Tim
使用 R 查找包含最大值的行索引

给定以下矩阵假设我想找到第二列中的最大值 mat lt matrix c 1 3 7 9 4 6 byrow T nc 3 mat 1 2 3 1 1 2 3 2 7 8 9 3 4 5 6 I know max mat 2 将返回 8
C# 中的数字签名无法在 C++ 中进行验证

我有一个 C 应用程序它使用 RSA 对数据进行数字签名代码如下 RSACryptoServiceProvider rsa new RSACryptoServiceProvider rsa ImportCspBlob privateKe
MonoGame 和 Microsoft.XNA.Framework 命名空间之间的引用不明确

MonoGame 一个基本上将 XNA 引入 Windows Phone 8 的框架的所有命名空间都带有前缀Microsoft Xna Framework我相信将 XNA 应用程序移植到 MonoGame 时所需的代码更改量最小化我的问
如何使用 docker run 命令将 json 文件作为参数传递

以下是我的 Dockerfile 内容 FROM python 2 7 slim Set the working directory to app WORKDIR app Copy the current directory content
取消 RestSharp 请求

我正在制作一个 wp7 应用程序它使用 RestSharp 下载一些数据我注意到应用程序指南要求我提供一个允许用户取消数据传输的 ui 元素是否可以在休息时取消 ExecuteAsync 请求 ExecuteAsync 返回一个Res
使用 # 重定向到页面中的 div

我想在控制器中处理一些数据后重定向到网页的某个 div 他们有什么方法可以将添加到网址末尾吗或者我应该用javascript处理它 Example HttpPost public async Task
查找线段是否位于另一线段的距离范围内

我有一堆段我拥有的数据是构成段 x1 y1 和 x2 y2 的 2 个点并且想根据它们的位置对它们进行分类如果一个片段与另一个片段足够接近那么我想将它们放在一起如果我必须用一句话来描述它我想找到距线段任何点 5px 距离的所有相
OWL ObjectProperty 在 Protégé 中作为注释加载

我正在尝试加载ontology http www bbc co uk ontologies wildlife 2010 11 04 shtml在 Prot g 中但未按预期进行处理最有问题的是所有对象和数据属性都显示为注释而不是数据属性
使用 FileProvider 共享内部存储中的图像

我的应用程序的内部存储中存储了一些文件我想在外部应用程序中打开它们例如将图像发送到图库以供查看我已经设置了一个FileProvider这样做 From AndroidManifest xml
在多台机器上开发时无法运行 VSPackage

我们正在团队中使用 Visual Studio 2012 和 TFS 开发 VSPackage The extension works fine on the computer used to create it through a wiz
生成仅包含正数的高斯分布

有没有办法随机生成一组正数使其具有所需的平均值和标准差我有一个算法来生成具有高斯分布的数字但我不知道如何以保留平均值和标准差的方式处理负数看起来泊松分布可能是一个很好的近似值但它只需要一个平均值编辑回复中有一些混乱所以我会尽
SSE加载和添加

假设我有两个由两个类型数组表示的向量double 每个尺寸为2 我想添加相应的位置所以假设向量i0 and i1 我想补充一下i0 0 i1 0 and i0 1 i1 1 一起由于类型是double 我需要两个寄存器诀窍是把i0 0

SSE加载和添加

SSE加载和添加 的相关文章

随机推荐

热门标签

SSE加载和添加的相关文章