CUDA 中的广义霍夫变换 - 如何加快分箱过程？

2024-04-19

正如标题所示，我正在对并行计算机视觉技术进行一些个人研究。使用 CUDA，我尝试实现 GPGPU 版本的霍夫变换。我遇到的唯一问题是在投票过程中。我调用atomicAdd() 来防止多个同时写入操作，但我似乎没有获得太多的性能效率。我在网上搜索过，但没有找到任何方法可以显着提高投票过程的性能。

如果您能提供有关投票过程的任何帮助，我们将不胜感激。

我不熟悉霍夫变换，因此发布一些伪代码可能会有所帮助。但如果您对投票感兴趣，您可以考虑使用 CUDA 投票内在指令来加速这一过程。

请注意，这需要 2.0 或更高版本的计算能力（Fermi 或更高版本）。

如果您想计算一个线程中的线程数block对于特定条件成立的情况，您可以使用__syncthreads_count().

bool condition = ...; // compute the condition
int blockCount = __syncthreads_count(condition); // must be in non-divergent code

如果您想计算一个线程中的线程数grid对于条件为 true 的情况，您可以执行以下操作atomicAdd

bool condition = ...; // compute the condition
int blockCount = __syncthreads_count(condition); // must be in non-divergent code
atomicAdd(totalCount, blockCount);

如果需要计算小于条件为 true 的块的组中的线程数，可以使用__ballot() and __popc()（人口统计）。

// get the count of threads within each warp for which the condition is true
bool condition = ...; // compute the condition in each thread
int warpCount = __popc(__ballot()); // see the CUDA programming guide for details

希望这可以帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

GPU

GPGPU

houghtransform

CUDA 中的广义霍夫变换 - 如何加快分箱过程？的相关文章

OS X 10.8 上的 PyCuda / 多处理问题

我正在开发一个项目将计算任务分配给多个 python 进程每个进程都与其自己的 CUDA 设备关联生成子进程时我使用以下代码 import pycuda driver as cuda class ComputeServer obje
CUDA 5.0错误LNK2001：cuda方法无法解析的外部符号

我的链接器有错误 1 gt ManifestResourceCompile 1 gt All outputs are up to date 1 gt kernel cu obj error LNK2001 unresolved extern
PyInstaller 是否包含 CUDA

我正在开发一个Python脚本我使用Python 3 7 3 它使用tensorflow gpu 1 14 0 并使用PyInstaller 3 5将此脚本转换为可执行文件我使用的是 CUDA 10 0 和 cuDNN 7 6 1 我的
有条件减少 CUDA

我需要总结一下100000值存储在数组中但带有条件有没有办法在 CUDA 中做到这一点以快速产生结果任何人都可以发布一个小代码来做到这一点吗我认为要执行条件约简您可以直接将条件引入为乘法0 假或1 真加数换句话说假设您希
如何在GPU支持下运行python代码

我创建了一个 Flask 服务用于接受以相机 URL 作为参数的请求用于在相机框架中查找对象桌子椅子等我已经在 Flask 中编写了用于接受 POST 请求的代码 app route rest detectObjects meth
XGBoostError：[10：10：03] /workspace/src/tree/updater_gpu_hist.cu：1407：gpu_hist 中的异常：NCCL 失败

PROJECT Nvidia 开发者项目 https developer nvidia com blog gradient boosting decision trees xgboost cuda 在 Google Colab 环境中 MY
为什么 cuCtxCreate 返回旧上下文？

我已经安装了 CUDA SDK 4 2 64 CUDA工具包4 2 64 CUDA 驱动程序 4 2 64 我检查了 windows 中的每个 nvcuda dll 所有这些都是 4 2 版本但是当我使用驱动程序 api 创建上下文并使用
OpenCV 2.4.3rc 和 CUDA 4.2：“OpenCV 错误：没有 GPU 支持”

我在这张专辑中上传了几张截图 https i stack imgur com TELST jpg https i stack imgur com TELST jpg 我正在尝试在 Visual Studio 2008 中的 OpenCV 中
C 中的 CUDA：如何使用 cudaMemcpyAsync 修复错误 11

我目前正在尝试使用 CUDA 运行一个简单的多 GPU 程序它的基本作用是将一个包含一些虚拟数据的大型数组复制到 GPU GPU 进行一些数学计算然后将结果数组复制回来我在 VS2017 的输出中没有收到任何错误但我设置的一些错误消
使用 tfprof 分析 TensorFlow

我正在尝试分析 TensorFlow 的计算内存使用情况发现tfprof https github com tensorflow tensorflow tree master tensorflow tools tfprof是实现我的目的
GPU上动态分配内存

是否可以在内核内的 GPU 全局内存上动态分配内存我不知道我的答案有多大因此我需要一种方法为答案的每个部分分配内存 CUDA 4 0 允许我们使用 RAM 这是一个好主意还是会降低速度可以在内核中使用 malloc 检查以下内容摘自
Cuda：最小二乘求解，速度较差

最近我使用Cuda编写了一个名为正交匹配追踪的算法在我丑陋的 Cuda 代码中整个迭代需要 60 秒而 Eigen lib 只需 3 秒在我的代码中矩阵 A 是 640 1024 y 是 640 1 在每一步中我从 A 中
无法在 CUDA 中找到 1 到 100 数字的简单和？

我正在研究使用 CUDA 的图像处理算法在我的算法中我想使用 CUDA 内核找到图像所有像素的总和所以我在cuda中制作了内核方法来测量16位灰度图像的所有像素的总和但我得到了错误的答案所以我在cuda中编写了一个简单的程序来查
将内核链接到 PTX 函数

我可以使用 PTX 文件中包含的 PTX 函数作为外部设备函数将其链接到另一个应调用该函数的 cu 文件吗这是另一个问题CUDA 将内核链接在一起 https stackoverflow com questions 20636800 c
在 Cuda 中简单添加两个 int，结果始终相同

我开始了学习Cuda的旅程我正在玩一些 hello world 类型的 cuda 代码但它不起作用我不知道为什么代码非常简单取两个整数并将它们添加到 GPU 上并返回结果但无论我将数字更改为什么我都会得到相同的结果如果数学那
Windows Azure 虚拟机配备什么类型的显卡？

我正在考虑在 Windows Azure 虚拟机上运行一些图形密集型程序但不确定它们有什么样的硬件所有虚拟机都具有相同的 GPU 吗您对此有何体验 Azure 虚拟机中的 GPU 可能非常基本并且很可能不具备执行密集图形操作所需的处
CUDA 代码会损坏 GPU 吗？

在测试包含内存错误的 CUDA 时我的屏幕被冻结了重新启动后我无法再检测到显卡我的代码是否有可能物理损坏该卡这发生在 Ubuntu 14 04 下我不知道该卡的型号因为我无法检测到它但我记得它是一张相当新的卡感谢所有的评论我
Tensorflow新Op CUDA内核内存管理

我已经使用 GPU CUDA 内核在 Tensorflow 中实现了一个相当复杂的新 Op 该操作需要大量动态内存分配这些变量不是张量并且在操作完成后被释放更具体地说它涉及使用哈希表现在我正在使用cudaMalloc and cu
为什么使用 boost::none 无法通过 nvcc 编译？

我正在尝试编译以下代码 include
如何从尖点库矩阵格式获取原始指针

我需要从尖点库矩阵格式获取原始指针例如 cusp coo matrix

随机推荐

node-gyp 配置得到“gyp ERR！找到 VS”

我正在尝试开始有关节点 c c 附加组件这node gyp命令出错我已经安装了vs2019 我的命令是 node gyp configure msvs version 2019 详细输出是 gyp info it worked if i
@Override 注解的问题

我正在制作一个类似于 Banko 小程序的 Java 应用程序当我点击 public void init 方法时我进展顺利当我完成后除此之外的所有内容都已编译完毕它告诉我添加 Override 注释我尝试过但每当我这样做时无
如何在 Android 中创建 https 连接？

我在 Stackoverflow 中找到了很多帖子但无法找到适用的解决方案如何在 Android 中创建 https 连接代码是 HttpParams httpParameters new BasicHttpParams ConnMa
ComponentDidUpdate 使用情况和最大更新深度超出

我有一个设置屏幕我可以从用户那里获取一些信息例如年龄体重和性别在获得这些信息后我计算用户每天应该喝多少水我想自动计算这个金额而不需要任何计算按钮不变违规超出最大更新深度当组件在 componentWillUpdate 或
无法使用我的机器的 IP 地址运行我的 Node.Js 应用程序，但可以使用 localhost

所以我设置了一个 Node js 应用程序来侦听我机器的端口 5050 所以当我去http localhost 5050 myapp http localhost 5050 myapp我的应用程序加载良好我使用的是express框架因此
rel-canonical 还应该包括协议 (http/https) 吗？

我正在将我的网站从 http 迁移到 https 尽管它仍然支持通过 http 访问目前我的所有页面都在 HTML 中设置了准确的 rel canonical 元标记但显然它们都指向规范的 http url 我现在是否也应该将它们更新为
具有隐式数组大小的模板参数

下面是一个简化的模板类它接受数组作为模板参数但是我还必须传递数组的大小作为参数我想自动推导它并只写 const char TextArray zero one two Array
如何将自定义多变量函数应用于 R 中数据框的每一行？

假设我有一个数据框其中的列名为 foo 和 bar mydata lt data frame foo rnorm 100 bar rnorm 100 假设我有一个自定义标量函数它需要标量输入 x 和 y 并产生标量输出例如 myfun
如何控制径向渐变中椭圆的高度

我正在尝试使用径向渐变作为我的背景下面是代码 div width 778px height 100px background radial gradient ellipse at top center green yellow 229px
运算符“==”不能应用于“char”和“string”类型的操作数

我正在开发一个自我指导的简单程序来练习迄今为止学到的概念我的项目与国际象棋相关在本例中具体是棋盘 a h 列和 1 8 行系统会询问用户特定棋子的当前位置希望输入为列字母后跟行数字为了验证这一点我首先检查该值是否作为两个字符的
模块“tensorflow._api.v2.train”没有属性“GradientDescentOptimizer”

我使用Python 3 7 3并安装了tensorflow 2 0 0 alpha0 但是存在一些问题例如模块 tensorflow api v2 train 没有属性 GradientDescentOptimizer 这是我的全部代码
如何在CWorkerThread中编写简单的后台线程

我正在尝试在 Internet Explorer 的附加组件中异步运行函数我正在用 VC 编写 BHO 按照建议here https stackoverflow com questions 4285346 threading in bho
使用 ruby 解压缩（zip、tar、tag.gz）文件

我想解压很多 zip 文件是否有模块或脚本可以检查 zip 文件的格式并对其进行解压缩这应该适用于Linux 我不关心其他操作系统要从 tar gz 文件中提取文件您可以使用随 Ruby 分发的包中的以下方法 require rub
“constexpr”函数的“noexcept”行为

的措辞 expr unary noexcept 改变于C 17 之前 n4140 5 3 7 noexcept 运算符 expr unary noexcept https timsong cpp github io cppwp n4140
无模板 Django + AJAX：Django 的 CSRF 令牌会在浏览会话过程中更新吗？

我当前的设置是 AngularJS Django 1 5 我完全放弃了 Django 模板引擎的使用即后端几乎是一个 API 服务器由于我没有使用csrf tokentemplate 标签 Django 反过来不会设置和发送csrft
将 qDebug 重定向到 QTextEdit

我想用qInstallMessageHandler handler 重定向qDebug to QTextEdit 我在类中定义了一个处理函数 void Spider redirect QtMsgType type const QMessag
视图内的滚动视图无法正常反应本机

在这里我正在尝试一个简单的代码但如果保留在另一个视图中滚动视图将无法工作代码是这样的 return
android studio 立即删除我的复制和粘贴导入语句

我有一个由 android studio 0 8x 设置的项目空白活动但是当我粘贴 ctrl v 一些导入语句时如下所示 import android app Activity import android content res R
判断一个变量是否在数组中？ [复制]

这个问题在这里已经有答案了我有一个变量 var code de 我有一个数组 var countryList de fr it es 有人可以帮助我因为我需要检查该变量是否在 CountryList 数组内我的尝试在这里 if cod
CUDA 中的广义霍夫变换 - 如何加快分箱过程？

正如标题所示我正在对并行计算机视觉技术进行一些个人研究使用 CUDA 我尝试实现 GPGPU 版本的霍夫变换我遇到的唯一问题是在投票过程中我调用atomicAdd 来防止多个同时写入操作但我似乎没有获得太多的性能效率我在网上搜索

CUDA 中的广义霍夫变换 - 如何加快分箱过程？

CUDA 中的广义霍夫变换 - 如何加快分箱过程？ 的相关文章

随机推荐

热门标签

CUDA 中的广义霍夫变换 - 如何加快分箱过程？的相关文章