如何改善 OpenMP 在 Android 上的较差性能？

2023-12-22

我为Android编写了一个图像处理应用程序（https://play.google.com/store/apps/details?id=cv.cvExperiments https://play.google.com/store/apps/details?id=cv.cvExperiments）以及一些用 JNI 包装的 C++ 代码。为了在多核处理器上获得一些加速，我用 openmp“parallel for”指令注释了昂贵的循环。

问题是，在 x86 上，我在 4 核处理器上获得了从 x3 到 x5 的一些加速，但在 Android 上，激活 OpenMP（使用 -fopenmp）不会在 ARM 32 位上提供任何加速，甚至会减慢 64 位 armv8 上的代码骁龙810。

我错过了什么？有人能观察到 android+arm 上的加速速度可与 x86 cpu 相媲美吗？

互联网上有很多关于如何激活 OpenMP 的教程，但没有显示加速情况的基准测试。有什么指示吗？

我发现的唯一相关信息是 armv8 上 OpenMP 开销的基准，他们还注意到一些相当高的开销：https://wiki.linaro.org/WorkingGroups/Middleware/Graphics/GPGPU/Docs/OpenMPforARMv8PortAnalysis https://wiki.linaro.org/WorkingGroups/Middleware/Graphics/GPGPU/Docs/OpenMPforARMv8PortAnalysis

谢谢，马蒂厄

Android 上的多线程问题很可能与许多 CPU 的架构有关。骁龙 810 是一款低/高架构 https://www.tomshardware.com/reviews/snapdragon-810-benchmarks,4053-2.html，有 4 个强核心和 4 个弱核心。

具体来说，810 在 big.LITTLE 异构配置中采用了四个 Cortex-A57 和四个 Cortex-A53 内核，其中所有八个内核都可供操作系统调度程序使用。

如果没有良好的工作池实现，为平衡工作负载而生成的所有额外线程最终可能会变成低性能核心，根据我的估计，在繁重的 SIMD 计算上，这些核心的速度大约是强核心的三倍（在 Samsung Exynos 9611 上测量））。

缓解需要使用线程亲和性仅在强核心上创建额外的工作线程，或者需要根据每个核心的功能专门定制每个工作负载；这里，16 个块的工作被分为 8 个核心，即 3+3+3+3+1+1+1+1（快速核心的 CPU id 为 4..7）。

#pragma omp parallel num_threads(8)
{
   auto tid = omp_get_thread_num();
   uint8_t aff[sizeof(cpu_set_t)] = { 0x80 >> tid };
   sched_setaffinity(0, 1, (cpu_set_t *)aff);

   if (tid < 4) do_task(tid * 3, tid * 3 + 3);
   else do_task(tid+8, tid+9);
}

借助 OMP，使用这种方法将原本需要 110 毫秒的任务减少到 30 毫秒，并将工作交付给 4 个更好的内核，时间减少到约 37 毫秒。

在连续工作负载（例如实时信号处理）上，将工作拆分为两倍数量的核心似乎允许 Linux 调度程序了解计算要求并将线程迁移到不同的核心，但这并不是万无一失的。（8 个核心等于 16 个块，平均每个快速核心将执行 3 个块，每个慢速核心将执行 1 个块。）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何改善 OpenMP 在 Android 上的较差性能？的相关文章

在两个活动之间传输数据[重复]

这个问题在这里已经有答案了我正在尝试在两个不同的活动之间发送和接收数据我在这个网站上看到了一些其他问题但没有任何问题涉及保留头等舱的状态例如如果我想从 A 类发送一个整数 X 到 B 类然后对整数 X 进行一些操作然后将其发送
Android Studio 0.4.3 Eclipse项目没有gradle

在此版本之前在 Android Studio 中按原样打开 Eclipse 项目似乎很容易无需任何转换我更喜欢 Android Studio 环境但我正在开发一个使用 eclipse 作为主要 IDE 的项目我不想只为这个项目下载
用于登录 .NET 的堆栈跟踪

我编写了一个 logger exceptionfactory 模块它使用 System Diagnostics StackTrace 从调用方法及其声明类型中获取属性但我注意到如果我在 Visual Studio 之外以发布模式运行代
在 Windows 窗体中保存带有 Alpha 通道的单色位图会保存不同（错误）的颜色

在 C NET 2 0 Windows 窗体 Visual Studio Express 2010 中我保存由相同颜色组成的图像 Bitmap bitmap new Bitmap width height PixelFormat Form
重载<<的返回值

include
如何查看网络连接状态是否发生变化？

我正在编写一个应用程序用于检查计算机是否连接到某个特定网络并为我们的用户带来一些魔力该应用程序将在后台运行并执行检查是否用户请求托盘中的菜单我还希望应用程序能够自动检查用户是否从有线更改为无线或者断开连接并连接到新网络并执行魔
.isProviderEnabled(LocationManager.NETWORK_PROVIDER) 在 Android 中始终为 true

我不知道为什么但我的变量isNetowrkEnabled总是返回 true 我的设备上是否启用互联网并不重要这是我的GPSTracker class public class GPSTracker extends Service imp
如何根据 gradle 风格设置变量

我想传递一个变量test我为每种风格设置了不同的值作为 NDK 的定义但出于某种原因他总是忽略了最后味道的价值这是 build gradle apply plugin com android library def test andr
覆盖子类中的字段或属性

我有一个抽象基类我想声明一个字段或属性该字段或属性在从该父类继承的每个类中具有不同的值我想在基类中定义它以便我可以在基类方法中引用它例如覆盖 ToString 来表示此对象的类型为 property field 我有三种方法可以
增加活动的屏幕亮度

显然 Android 操作系统中至少有三种不同的技术可以改变屏幕亮度其中两个在纸杯蛋糕之后不再起作用而第三个被接受的技术显然有一个错误我想在单视图活动开始时增加屏幕亮度然后在活动结束时将亮度恢复为用户设置没有按钮没有第二个视图或
如何确定对手机号码的呼叫是本地呼叫还是 STD 或 ISD

我正在为 Android 开发某种应用程序但不知道如何获取被叫号码是本地或 STD 的号码的数据即手机号码检查器等应用程序从哪里获取数据注意我说的是手机号码而不是固定电话固定电话号码你得到的数字是字符串类型因此您可以获取号
cmake 将标头包含到每个源文件中

其实我有一个简单的问题但找不到答案也许你可以给我指一个副本所以问题是是否可以告诉 cmake 指示编译器在每个源文件的开头自动包含一些头文件这样就不需要放置 include foo h 了谢谢 CMake 没有针对此特定用例的
C# 成员变量继承

我对 C 有点陌生但我在编程方面有相当广泛的背景我想做的事情为游戏定义不同的 MapTiles 我已经像这样定义了 MapTile 基类 public class MapTile public Texture2D texture pu
基于 OpenCV 边缘的物体检测 C++

我有一个应用程序我必须检测场景中某些项目的存在这些项目可以旋转并稍微缩放更大或更小我尝试过使用关键点检测器但它们不够快且不够准确因此我决定首先使用 Canny 或更快的边缘检测算法检测模板和搜索区域中的边缘然后匹配边缘以查
捕获的图像分辨率太大

我在做什么我允许用户捕获图像将其存储到 SD 卡中并上传到服务器但捕获图像的分辨率为宽度 4608 像素和高度 2592 像素现在我想要什么如何在不影响质量的情况下获得小分辨率图像例如我可以获取或设置捕获的图像分辨率为原始图像分
是否可以在 .NET Core 中将 gRPC 与 HTTP/1.1 结合使用？

我有两个网络服务 gRPC 客户端和 gRPC 服务器服务器是用 NET Core编写的然而客户端是托管在 IIS 8 5 上的 NET Framework 4 7 2 Web 应用程序所以它只支持HTTP 1 1 https le
将两个文本视图并排放置在布局中

我有两个文本视图需要在布局中并排放置并且必须遵守两条规则 Textview2 始终需要完整显示如果布局中没有足够的空间则必须裁剪 Textview1 例子文本视图1 文本视图2 Teeeeeeeeeeeeeeeeeextview1
如何将 google+ 登录集成到我的 Android 应用程序中？

大家好实际上我需要通过我的应用程序从 google 登录人们现在我阅读了 google 上的文档其中指出要允许用户登录请将 Google Sign In 集成到您的应用中初始化 GoogleApiClient 对象时请求 PL
使用.NET技术录制屏幕视频[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有没有一种方法可以使用 NET 技术来录制屏幕无论是桌面还是窗口我的目标是免费的我喜欢小型低
节拍匹配算法

我最近开始尝试创建一个移动应用程序 iOS Android 它将自动击败比赛 http en wikipedia org wiki Beatmatching http en wikipedia org wiki Beatmatching 两

随机推荐

C# 中继承的性能注意事项

如果我使用以下命令创建一个类编译器是否会生成相同的 ILpublic int I 或任何其他字段与创建一个从具有以下属性的基类继承的类public int I 无论哪种方式生成的类的行为都是相同的但是编译器的行为是否相同即编译器
为什么在 IntelliJ 14+ 上运行简单的 scala 程序时会出现 ClassNotFoundException？

我无法弄清楚这个程序出了什么问题我正在使用旧版本的 scala 2 7 因为它与我正在使用的某些库兼容这是我尝试运行的一个简单程序该程序运行良好使用scalac and scala命令但是在 IntelliJ 14 上 gt 当我c
如何在Python中分割文件？

是否可以分割文件例如您有一个巨大的单词列表我想将其拆分使其成为多个文件这怎么可能这个用换行符分割文件并将其写回您可以轻松更改分隔符如果您的输入文件中没有多个 splitLen 行本例中为 20 行这也可以处理不均匀的数量
EF core“点赞”功能的动态表达

我编写了一些代码来创建动态表达式来过滤我的分页我正在尝试制作 EF Core 内置函数的动态表达式以进行搜索 EF Functions Like 我尝试过像bottom这样的方法但它是一种扩展方法调用该方法时不使用第一个参数我不知道
使用 ObjectMapper + JavaTimeModule 将 JacksonJsonProvider 注册到 Jersey 2 客户端

我正在尝试整理包含 ISO 格式时间戳的响应如下所示 time 2014 07 02T04 00 00 000000Z into ZonedDateTime我的域模型对象中的字段最终如果我使用以下代码片段中注释的解决方案它就会起作用
使用java图形沿着圆弧路径移动形状

请原谅我的天真这是我第一次来这里也是第一次用java处理图形动画我正在尝试完成一个沿某种弧线移动的星形动画尝试模拟二维轨道轨道动作与计时器一起使用来为星星设置动画简单来说我在jpanel的不同位置画了几颗星星星星 y 位置的
ViewPagerIndicator - 将 TabPageIndicator 设置为中心

I make an timetable application for android and I m using ViewPagerIndicator https github com JakeWharton Android ViewPa
注册页面不会将数据插入数据库

不知道为什么但是当我点击注册表单上的提交时它不会将数据插入数据库它通过重定向到注册成功页面来执行底部的最后一个 else 语句这让我感到困惑我可以正常工作但我做了一些事情但我不知道出了什么问题
QueryDSL 排序不适用于 Spring Data

我目前正在使用JpaSort使用 Spring Data commons 1 9 1 和 Spring JPA 1 7 1 我需要使用 QueryDSL 因为JPA 不允许定义空值的排序 https stackoverflow com qu
如何用新内容替换面板内容？

我有一个regionContent我添加到视口的面板如何用新内容替换其内容 var regionContent new Ext Panel id contentArea region center padding 10 autoScrol
如何使用包含彩色图像的按钮自定义 UIToolbar？

我有两个关于 UIToolbar 的问题 1 我已经阅读了许多关于如何在 UIToolbar 中使用带有自定义图像彩色的按钮的 Stackoverflow 答案我尝试在 UIToolbar 顶部放置一个视图 hack 并将带有图像的按
解密使用 OpenSSL 生成的“der”文件时出现异常：使用填充密码解密时，输入长度必须是 8 的倍数

首先我使用 OpenSSL 生成一个私有 RSA 密钥文件然后将其转换为加密的 der 文件 openssl pkcs8 topk8 inform PEM outform DER in private key pem out priva
有什么方法可以直接将跨度设置为可跨度文本吗？

这可能是一个错误但我需要知道我正在开发一个android应用程序在我想在一个文本视图中显示两种字体并发现这个非常有用扩展字体跨度的自定义字体跨度 https stackoverflow com questions 9618835 a
比较 R 中的两个向量

我有两个向量 a c 1 2 3 b c 1 2 3 我想测试一下是否a完全一样b 我知道结果可以通过sum a b length a 但是有什么优雅的方法吗我们可以用identical identical a b 1 TRUE 或者如
使用 UCanAccess 读取 .mdb 文件会返回全部大写的列名

我正从 JDBC ODBC 桥驱动程序迁移到 UCanAccess 驱动程序在执行此操作时我面临以下问题 UCanAccess 驱动程序以大写形式返回所有列名但我需要它们采用驼峰命名法有任何想法吗 Thx With UCanAcce
如何给 barbuttonitem 动作？

当单击 UIToolBar 上的完成按钮时我想调出 TableViewController 的 nib 但下面不允许单击打开新视图我该如何纠正这个问题请告诉我哪里出了问题应该更换什么以及原因 Here s the selector
有没有办法在 Swift Playground 中使用 Common Crypto？

我正在 Xcode 游乐场中玩弄 REST API 我需要使用 SHA1 进行哈希处理我发现的所有解决方案都依赖于 Common Crypto 而这似乎不能直接在 Swift Playground 中使用有没有办法在 Swift 游乐场
如何对 ConcurrentDictionary 实现 TryRemove 条件？ [复制]

这个问题在这里已经有答案了最近我有一个需要 https stackoverflow com questions 1764809 filesystemwatcher changed event is raised twice 5807932
在 JavaScript 中克隆对象[重复]

这个问题在这里已经有答案了您好我使用以下代码来创建对象 var parent parent Task name Task x parent Start time 01 03 2013 parent End time 01 08 2013
如何改善 OpenMP 在 Android 上的较差性能？

我为Android编写了一个图像处理应用程序 https play google com store apps details id cv cvExperiments https play google com store apps det

如何改善 OpenMP 在 Android 上的较差性能？

如何改善 OpenMP 在 Android 上的较差性能？ 的相关文章

随机推荐

热门标签

如何改善 OpenMP 在 Android 上的较差性能？的相关文章