使用 sse 内在函数对 (A)RGB32 图像进行最快 50% 缩放

2024-01-02

我想在 C++ 中尽可能快地缩小图像。本文 http://blog.qt.io/blog/2009/01/20/50-scaling-of-argb32-image/描述如何有效地将 32 位 RGB 图像平均降低 50%。它速度快而且看起来不错。

我尝试使用 sse 内在函数修改该方法。无论启用或不启用 SSE，下面的代码都可以工作。但令人惊讶的是，加速效果可以忽略不计。

任何人都可以找到改进 SSE 代码的方法吗？创建变量 shuffle1 和 shuffle2 的两行似乎是候选者（使用一些巧妙的移位或类似方法）。

/*
 * Calculates the average of two rgb32 pixels.
 */
inline static uint32_t avg(uint32_t a, uint32_t b)
{
    return (((a^b) & 0xfefefefeUL) >> 1) + (a&b);
}

/*
 * Calculates the average of four rgb32 pixels.
 */
inline static uint32_t avg(const uint32_t a[2], const uint32_t b[2])
{
    return avg(avg(a[0], a[1]), avg(b[0], b[1]));
}

/*
 * Calculates the average of two rows of rgb32 pixels.
 */
void average2Rows(const uint32_t* src_row1, const uint32_t* src_row2, uint32_t* dst_row, int w)
{
#if !defined(__SSE)
        for (int x = w; x; --x, dst_row++, src_row1 += 2, src_row2 += 2)
            * dst_row = avg(src_row1, src_row2);
#else
        for (int x = w; x; x-=4, dst_row+=4, src_row1 += 8, src_row2 += 8)
        {
            __m128i left  = _mm_avg_epu8(_mm_load_si128((__m128i const*)src_row1), _mm_load_si128((__m128i const*)src_row2));
            __m128i right = _mm_avg_epu8(_mm_load_si128((__m128i const*)(src_row1+4)), _mm_load_si128((__m128i const*)(src_row2+4)));

            __m128i shuffle1 = _mm_set_epi32( right.m128i_u32[2], right.m128i_u32[0], left.m128i_u32[2], left.m128i_u32[0]);
            __m128i shuffle2 = _mm_set_epi32( right.m128i_u32[3], right.m128i_u32[1], left.m128i_u32[3], left.m128i_u32[1]);

            _mm_store_si128((__m128i *)dst_row, _mm_avg_epu8(shuffle1, shuffle2));
        }
#endif
}

在通用寄存器和 SSE 寄存器之间传输数据非常慢，因此您应该避免执行以下操作：

__m128i shuffle1 = _mm_set_epi32( right.m128i_u32[2], right.m128i_u32[0], left.m128i_u32[2], left.m128i_u32[0]);
__m128i shuffle2 = _mm_set_epi32( right.m128i_u32[3], right.m128i_u32[1], left.m128i_u32[3], left.m128i_u32[1]);

借助相应的洗牌操作对 SSE 寄存器中的值进行洗牌。

这应该是您正在寻找的：

__m128i t0 = _mm_unpacklo_epi32( left, right ); // right.m128i_u32[1] left.m128i_u32[1] right.m128i_u32[0] left.m128i_u32[0]
__m128i t1 = _mm_unpackhi_epi32( left, right ); // right.m128i_u32[3] left.m128i_u32[3] right.m128i_u32[2] left.m128i_u32[2]
__m128i shuffle1 = _mm_unpacklo_epi32( t0, t1 );    // right.m128i_u32[2] right.m128i_u32[0] left.m128i_u32[2] left.m128i_u32[0]
__m128i shuffle2 = _mm_unpackhi_epi32( t0, t1 );    // right.m128i_u32[3] right.m128i_u32[1] left.m128i_u32[3] left.m128i_u32[1]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

SSE

使用 sse 内在函数对 (A)RGB32 图像进行最快 50% 缩放的相关文章

编译时运算符

有人可以列出 C 中可用的所有编译时运算符吗 C 中有两个运算符无论操作数如何它们的结果始终可以在编译时确定它们是sizeof 1 and 2 当然其他运算符的许多特殊用途可以在编译时解决例如标准中列出的那些整数常量表达式 1 与
EF Core Group By 翻译支持条件总和

听说 EF Core 2 1 将支持翻译小组我感到非常兴奋我下载了预览版并开始测试它但发现我在很多地方仍然没有得到翻译分组在下面的代码片段中对 TotalFlagCases 的查询将阻止翻译分组工作无论如何我可以重写这个以便我
我如何才能等待多个事情

我正在使用 C 11 和 stl 线程编写一个线程安全队列 WaitAndPop 方法当前如下所示我希望能够将一些内容传递给 WaitAndPop 来指示调用线程是否已被要求停止如果 WaitAndPop 等待并返回队列的元素则应返回
GLKit的GLKMatrix“列专业”如何？

前提A 当谈论线性存储器中的列主矩阵时列被一个接一个地指定使得存储器中的前 4 个条目对应于矩阵中的第一列另一方面行主矩阵被理解为依次指定行以便内存中的前 4 个条目指定矩阵的第一行 A GLKMatrix4看起来像这样 u
为什么两个不同的 Base64 字符串的转换会返回相等的字节数组？

我想知道为什么从 base64 字符串转换会为不同的字符串返回相同的字节数组 const string s1 dg const string s2 dq byte a1 Convert FromBase64String s1 byte a2
用于检查类是否具有运算符/成员的 C++ 类型特征[重复]

这个问题在这里已经有答案了可能的重复是否可以编写一个 C 模板来检查函数是否存在 https stackoverflow com questions 257288 is it possible to write a c template
使用实体框架模型输入安全密钥

这是我今天的完美想法 Entity Framework 中的强类型 ID 动机比较 ModelTypeA ID 和 ModelTypeB ID 总是至少几乎错误为什么编译时不处理它如果您使用每个请求示例 DbContext 那么很
从Web API同步调用外部api

我需要从我的 Web API 2 控制器调用外部 api 类似于此处的要求使用 HttpClient 从 Web API 操作调用外部 HTTP 服务 https stackoverflow com questions 13222998
while 循环中的 scanf

在这段代码中 scanf只工作一次我究竟做错了什么 include
SolrNet连接说明

为什么 SolrNet 连接的容器保持静态这是一个非常大的错误因为当我们在应用程序中向应用程序发送异步请求时 SolrNet 会表现异常在 SolrNet 中如何避免这个问题 class P static void M string
转发声明和包含

在使用库时无论是我自己的还是外部的都有很多带有前向声明的类根据情况相同的类也包含在内当我使用某个类时我需要知道该类使用的某些对象是前向声明的还是 include d 原因是我想知道是否应该包含两个标题还是只包含一个标题现在我知
控件的命名约定[重复]

这个问题在这里已经有答案了 Microsoft 在其网站上提供了命名指南 here http msdn microsoft com en us library xzf533w0 VS 71 aspx 我还有框架设计指南一书我找不到有关
什么时候虚拟继承是一个好的设计？ [复制]

这个问题在这里已经有答案了 EDIT3 请务必在回答之前清楚地了解我要问的内容有 EDIT2 和很多评论有或曾经有很多答案清楚地表明了对问题的误解我知道这也是我的错对此感到抱歉嗨我查看了有关虚拟继承的问题 class B p
如何查看网络连接状态是否发生变化？

我正在编写一个应用程序用于检查计算机是否连接到某个特定网络并为我们的用户带来一些魔力该应用程序将在后台运行并执行检查是否用户请求托盘中的菜单我还希望应用程序能够自动检查用户是否从有线更改为无线或者断开连接并连接到新网络并执行魔
覆盖子类中的字段或属性

我有一个抽象基类我想声明一个字段或属性该字段或属性在从该父类继承的每个类中具有不同的值我想在基类中定义它以便我可以在基类方法中引用它例如覆盖 ToString 来表示此对象的类型为 property field 我有三种方法可以
如何从两个不同的项目中获取文件夹的相对路径

我有两个项目和一个共享库用于从此文件夹加载图像 C MainProject Project1 Images 项目1的文件夹 C MainProject Project1 Files Bin x86 Debug 其中有project1 ex
混合 ExecutionContext.SuppressFlow 和任务时 AsyncLocal.Value 出现意外值

在应用程序中由于 AsyncLocal 的错误意外值我遇到了奇怪的行为尽管我抑制了执行上下文的流程但 AsyncLocal Value 属性有时不会在新生成的任务的执行范围内重置下面我创建了一个最小的可重现示例来演示该问题 pr
IEnumreable 动态和 lambda

我想在 a 上使用 lambda 表达式IEnumerable
如何将服务器服务连接到 Dynamics Online

我正在修改内部管理应用程序以连接到我们的在线托管 Dynamics 2016 实例根据一些在线教程我一直在使用OrganizationServiceProxy out of Microsoft Xrm Sdk Client来自 SDK
如何在文本框中插入图像

有没有办法在文本框中插入图像我正在开发一个聊天应用程序我想用图标图像更改值等但我找不到如何在文本框中插入图像 Thanks 如果您使用 RichTextBox 进行聊天请查看Paste http msdn microsoft co

随机推荐

Linux中如何设置环境变量LD_LIBRARY_PATH

我首先执行了命令 export LD LIBRARY PATH usr local lib 然后我就打开了 bash profile file vi bash profile 在这个文件中我放入 LD LIBRARY PATH usr l
npm 脚本中的 Autoprefixer 显示 TypeError：模式必须是字符串或字符串数组

当我运行 npm run prefix css 时它显示类型错误模式必须是字符串或字符串数组 name natours version 1 0 0 description A natours project main index j
Vim 自动滚动缓冲区

我正在尝试做一些非常简单的事情我在 Vim 中有两个缓冲区一个包含源代码 B1 另一个包含文本文件a txt B2 B1中的源代码在Vim中使用自定义快捷方式运行填充a txt带有文字我希望 Vim 在每次更新时自动滚动 B2 即使
django makemigrations 无需用户输入即可重命名字段

我有一个名为 CharField 的模型oldName 我想将该字段重命名为newName 当我跑步时python 管理 py makemigrations 我收到确认请求您是否将 model oldName 重命名为 model new
在 Keras 中获取每个类别的精确度、召回率和 F1 分数

我使用 Keras 2 1 5 中的 TensorFlow 后端训练了一个神经网络并且还使用了 keras contrib 2 0 8 库来添加 CRF 层作为网络的输出我想知道在使用神经网络对测试集进行预测后如何获得每个类别的精度召
Oracle Regexp 将 \n、\r 和 \t 替换为空格

我试图从包含换行符 NL 字符可能还包含其他字符的表中选择一列 n r t 我想使用 REGEXP 选择数据并用空格替换仅这三个字符不需要正则表达式这可以通过 ASCII 代码轻松完成并且可以使用无聊的旧代码翻译 https
错误：无法解析模块“react-native-gesture-handler”

我尝试在react native中使用导航我补充道 npm install save react navigation 但它给了我这样的错误错误捆绑失败错误无法解析模块react native gesture handler fr
使用lazysizes进行图片填充和延迟加载

我正在尝试使用延迟加载和图片填充来工作如果我只使用基本图像延迟加载本身就可以工作 img class lazyload 如果我检查 Chrome 中的网络选项卡我可以看到图像是在红线之后加载的所以一切都很好现在我添加了一个
如何让 Intellij 停止给我的 scala 代码添加下划线？

基本上 Intellij 通过在我的大量代码下划线使我的代码变得极其难以阅读它也在我的屏幕左侧制作了一个棋盘 gt 我查看了代码编辑器设置但在 scala 下找不到控制这些下划线的设置我正在使用暮光之城主题 https github
使用 Pushsharp 发送存折更新

我正在尝试测试与苹果的推送通知沙箱服务器的通信我做了一个证书如下启用推送通知请求证书颁发机构上传生成证书导出 p12 我制作了一个示例 C 控制台应用程序如下所示 PushBroker push new PushBroker
如何访问tensorflow::Tensor C++

我正在使用其 C API 运行 Tensorflow 我有以下调用它在 FinalOutput 中返回四个张量 std string str1 detection boxes std string str2 detection score
“找不到与命令“dotnet-ef”匹配的可执行文件”

我正在尝试使用 ASP NET Core 来学习基础知识本教程 https learn microsoft com en us aspnet core tutorials first mvc app adding model 我创建了一个
获取类外 JPanel 的宽度和高度

因此我创建了一个简单的模拟其中使用随机向量和窗口边缘的弹跳随机生成方块我希望它考虑到正在调整大小的窗口因此如果我将窗口的尺寸从 600x600 更改为 1200x600 则方块将根据新边框反弹而不是 600x600 我尝试执行
0x800a1391 - JavaScript 运行时错误：“jQuery”未定义

我有一个 ASP Net MVC4 Web 应用程序其中我有 Layout cshtml 的常用 html 它又加载默认的 Home Index 一切正常在我的索引中我还加载了部分视图这也很好用没有问题我正在使用以下站点的 UI
SwiftUI 的 .addArc 方法中的切线参数是什么？

我一直在玩 addArcSwiftUI 中路径视图上的方法但我仍然对切线参数的作用感到困惑我更像是一个视觉学习者但我还无法掌握它有人能直观地解释切线参数在该方法中的工作原理吗 https developer apple com do
如何在没有编译器警告的情况下对 Android 中的代码进行版本控制？

谷歌的文档说使用这种代码来确保新代码不会在旧平台上执行 if Build VERSION SDK INT gt Build VERSION CODES HONEYCOMB ActionBar actionBar getActionBar a
目标无法访问，标识符“demoBean”解析为 null [重复]

这个问题在这里已经有答案了我正在 Netbeans 7 0 上使用 JSF 开发 Web 应用程序我创建了 2 个页面一个用于输入人名另一个用于显示该姓名我正在使用带有 get 和 set 方法的 java bean 当我在第一页
MKCoordinateRegionMakeWithDistance 的反向函数？

MapKit的内置函数MKCoordinateRegionMakeWithDistance以米为单位的距离并将其转换为MKCoordinateRegion func MKCoordinateRegionMakeWithDistance ce
如何编译 Redis 以便可以在共享主机上上传并运行它？

我需要在我的共享主机帐户上运行 Redis 但由于共享主机的性质我无法在服务器上进行编译我有 SSH 访问权限但我的托管提供商告诉我我需要先编译 Redis 然后将其上传到服务器我不知道如何解决这个问题唯一在这里问这个问题的人从
使用 sse 内在函数对 (A)RGB32 图像进行最快 50% 缩放

我想在 C 中尽可能快地缩小图像本文 http blog qt io blog 2009 01 20 50 scaling of argb32 image 描述如何有效地将 32 位 RGB 图像平均降低 50 它速度快而且看起来不错我

使用 sse 内在函数对 (A)RGB32 图像进行最快 50% 缩放

使用 sse 内在函数对 (A)RGB32 图像进行最快 50% 缩放 的相关文章

随机推荐

热门标签

使用 sse 内在函数对 (A)RGB32 图像进行最快 50% 缩放的相关文章