联合编译OpenCV+PCL+CUDA时需要注意的问题

2023-11-05

最近在写tsdf的程序，同时使用了OpenCV，PCL和CUDA。在编译工程的时候发现了不少问题，在这里整理一下。

1. cu和cpp文件
__global__，__host__，__device__这样开头的cuda程序只能写在cu文件中。
kernal<<< i,j >>> 这样的核函数只能写在cu文件中。如果想在cpp文件中调用，可以将核函数封装在cu文件中，再调用。
其余的一些cuda命令如cudaMalloc，cudaMemcpy可以在cpp文件中使用。

2. include头文件在引用pcl的头文件前，要添加CUDACC宏定义下的boost内容
因为pcl/io/boost.h这个文件中做了关于宏CUDACC的编译选项，使用CUDA编译时，很多boost的头文件不包含了。所以在引用pcl头文件前添加：

#ifndef __CUDACC__
#ifndef Q_MOC_RUN
#include <boost/version.hpp>
#include <boost/numeric/conversion/cast.hpp>
#include <boost/thread/mutex.hpp>
#include <boost/thread/condition.hpp>
#include <boost/thread.hpp>
#include <boost/thread/thread.hpp>
#include <boost/filesystem.hpp>
#include <boost/bind.hpp>
#include <boost/cstdint.hpp>
#include <boost/function.hpp>
#include <boost/tuple/tuple.hpp>
#include <boost/shared_ptr.hpp>
#include <boost/weak_ptr.hpp>
#include <boost/mpl/fold.hpp>
#include <boost/mpl/inherit.hpp>
#include <boost/mpl/inherit_linearly.hpp>
#include <boost/mpl/joint_view.hpp>
#include <boost/mpl/transform.hpp>
#include <boost/mpl/vector.hpp>
#include <boost/algorithm/string.hpp>
#ifndef Q_MOC_RUN
#include <boost/date_time/posix_time/posix_time.hpp>
#endif
#if BOOST_VERSION >= 104700
#include <boost/chrono.hpp>
#endif
#include <boost/tokenizer.hpp>
#include <boost/foreach.hpp>
#include <boost/shared_array.hpp>
#include <boost/interprocess/sync/file_lock.hpp>
#if BOOST_VERSION >= 104900
#include <boost/interprocess/permissions.hpp>
#endif
#include <boost/iostreams/device/mapped_file.hpp>
#define BOOST_PARAMETER_MAX_ARITY 7
#include <boost/signals2.hpp>
#include <boost/signals2/slot.hpp>
#endif
#endif

3. 在c++11下使用cudaMalloc需要添加在导入变量前添加（void**）。如：
cudaMalloc((void**)&gpu_voxel_grid_TSDF, voxel_grid_dim_x * voxel_grid_dim_y * voxel_grid_dim_z * sizeof(float));
gpu_voxel_grid_TSDF 是float型变量。若不添加（void**），则会报错： error: invalid conversion from ‘float**’ to ‘void**’ [-fpermissive]

4. cuda是可以和cpp文件进行联合编译的。 CMakelists里要注意添加：
gpu部分的包和路径

#GPU
option(USE_CUDA "Use CUDA" ON)
find_package(CUDA REQUIRED)
find_package(CUDA 8.0)
include_directories(${CUDA_INCLUDE_DIRS})
set(CUDA_NVCC_FLAGS ${CUDA_NVCC_FLAGS};--disable-warnings;--ptxas-options=-v;-use_fast_math;-lineinfo;-std=c++11)

解决pcl和cuda冲突的vtk问题

get_directory_property(dir_defs DIRECTORY ${PROJECT_SOURCE_DIR} COMPILE_DEFINITIONS)
set(vtk_flags)
foreach(it ${dir_defs})
    if(it MATCHES "vtk*")
    list(APPEND vtk_flags ${it})
    endif()
endforeach()

foreach(d ${vtk_flags})
    remove_definitions(-D${d})
endforeach()

使用CUDA_ADD_EXECUTABLE联合编译cpp和cu文件

CUDA_ADD_EXECUTABLE(mytsdf src/mytsdf.cpp ${cpu_source_files} src/tsdf_gpu.cu)

否则会警告：

CMake Warning (dev) in cuda_gpu_generated_test.cu.o.cmake:
  Syntax Warning in cmake code at

    /home/xxx/mytsdf-fusion/build/mytsdf/CMakeFiles/cuda_gpu.dir/src/cuda_gpu_generated_test.cu.o.cmake:79:137

  Argument not separated from preceding token by whitespace.
This warning is for project developers.  Use -Wno-dev to suppress it.

并且报错：

nvcc fatal   : A single input file is required for a non-link phase when an outputfile is specified
CMake Error at cuda_gpu_generated_test.cu.o.cmake:207 (message):
  Error generating
  /home/xxx/mytsdf-fusion/build/mytsdf/CMakeFiles/cuda_gpu.dir/src/./cuda_gpu_generated_test.cu.o


mytsdf/CMakeFiles/cuda_gpu.dir/build.make:63: recipe for target 'mytsdf/CMakeFiles/cuda_gpu.dir/src/cuda_gpu_generated_test.cu.o' failed

目前就发现了这些问题，后面如有发现再继续补充。

参考：
[1] https://www.jianshu.com/p/6bf114685a6a

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

联合编译OpenCV+PCL+CUDA时需要注意的问题的相关文章

设置最大 CUDA 资源

我想知道是否可以设置 CUDA 应用程序的最大 GPU 资源例如如果我有一个 4GB GPU 但希望给定的应用程序只能访问 2GB 如果它尝试分配更多就会失败理想情况下这可以在进程级别或 CUDA 上下文级别上设置不目前没有允
如何在cmake中添加cuda源代码的定义

我使用的是 Visual Studio 2013 Windows 10 CMake 3 5 1 一切都可以使用标准 C 正确编译例如 CMakeLists txt project Test add definitions D WINDOW
cudaSetDevice() 对 CUDA 设备的上下文堆栈有何作用？

假设我有一个与设备关联的活动 CUDA 上下文i 我现在打电话cudaSetDevice i 会发生什么 Nothing 主上下文取代了堆栈顶部主上下文被压入堆栈事实上这似乎是不一致的我编写了这个程序在具有单个设备的机器上运行 i
在 cudaFree() 之前需要 cudaDeviceSynchronize() 吗？

CUDA 版本 10 1 帕斯卡 GPU 所有命令都发送到默认流 void ptr cudaMalloc ptr launch kernel lt lt lt gt gt gt ptr cudaDeviceSynchronize Is th
TensorRT 多线程

我正在尝试使用 python API 来使用 TensorRt 我试图在多个线程中使用它其中 Cuda 上下文与所有线程一起使用在单个线程中一切正常我使用 docker 和 tensorrt 20 06 py3 图像 onnx 模型和
cudaMemcpy() 与 cudaMemcpyFromSymbol()

我试图找出原因cudaMemcpyFromSymbol 存在似乎 symbol func 可以做的所有事情 nonSymbol cmd 也可以做 symbol func 似乎可以轻松移动数组或索引的一部分但这也可以使用 nonSymbo
如何为 CUDA 内核选择网格和块尺寸？

这是一个关于如何确定CUDA网格块和线程大小的问题这是对已发布问题的附加问题here https stackoverflow com a 5643838 1292251 通过此链接 talonmies 的答案包含一个代码片段见下文我
具有 Cuda Thrust 的多个 GPU？

如何将 Thrust 与多个 GPU 一起使用这只是使用 cudaSetDevice deviceId 的问题吗然后运行相关的 Thrust 代码使用 CUDA 4 0 或更高版本 cudaSetDevice deviceId 接下来
设备内存刷新cuda

我正在运行一个 C 程序其中调用了两次 cuda 主机函数我想清理这两个调用之间的设备内存有没有办法可以刷新 GPU 设备内存我使用的是计算能力为2 0的Tesla M2050 如果你只想将内存归零那么cudaMemset可能是最
如何在CUDA应用程序中正确应用线程同步？

一般来说我在应用程序中偶尔会使用线程同步因为我并不经常需要此功能我并不是真正的高级 C C 程序员但我也不是初学者我开始学习 CUDA C 对当今 GPU 与 CPU 的能力相比感到兴奋我意识到 CUDA 编程主要是关于并行线程
CUDA 8 编译错误 -std=gnu++11

我正在尝试转换一些代码以使用 CUDA 并且我认为我遇到了兼容性问题我们使用CMake 这些是我使用的 gcc 和 CUDA 版本 gcc version gcc Ubuntu 5 4 0 6ubuntu1 16 04 5 5 4 0 2
CUDA 模型 - 什么是扭曲尺寸？

最大工作组大小和扭曲大小之间有什么关系假设我的设备有 240 个 CUDA 流处理器 SP 并返回以下信息 CL DEVICE MAX COMPUTE UNITS 30 CL DEVICE MAX WORK ITEM SIZES 512
GPU上动态分配内存

是否可以在内核内的 GPU 全局内存上动态分配内存我不知道我的答案有多大因此我需要一种方法为答案的每个部分分配内存 CUDA 4 0 允许我们使用 RAM 这是一个好主意还是会降低速度可以在内核中使用 malloc 检查以下内容摘自
为什么 cudaGLSetGLDevice 失败，即使它是在 main 函数的第一行中调用的

我想使用 OpenGL 和 CUDA 之间的互操作性我知道正如一些教程所说第一步是选择设备但是当我在主函数的第一行中调用 cudaGLSetGLDevice 0 时程序退出并显示信息 cudaSafeCall 运行时 API 错
将内核链接到 PTX 函数

我可以使用 PTX 文件中包含的 PTX 函数作为外部设备函数将其链接到另一个应调用该函数的 cu 文件吗这是另一个问题CUDA 将内核链接在一起 https stackoverflow com questions 20636800 c
CUDA 和 Eigen 的成员“已声明”错误

我只是 CUDA 和 Nsight 的初学者希望利用出色的 GPU 性能进行线性代数运算例如 CUBLAS 我在以下人员的帮助下编写了很多自定义代码Eigen http eigen tuxfamily org index php tit
使用推力来处理 CUDA 类中的向量？

我对 C 类的推力的适用性有疑问我正在尝试实现一个类对象该对象接收顶点的 x y z 坐标作为 ver1 ver2 和 ver3 然后分配给一个三角形并计算面积和法向量然而我不太明白如何创建一类推力向量这是我从文件中读取的顶点坐
为什么使用 boost::none 无法通过 nvcc 编译？

我正在尝试编译以下代码 include
将 cuda 数组传递给 Thrust::inclusive_scan

我可以对 cpu 上的数组使用包容性扫描但是否可以对 gpu 上的数组执行此操作注释是我知道有效但我不需要的方式或者是否有其他简单的方法可以对设备内存中的数组执行包含扫描 Code include
为什么在 CUDA 中启动 32 倍数的线程？

我参加了 CUDA 并行编程课程并且看到了许多 CUDA 线程配置的示例其中通常将所需的线程数四舍五入到最接近的 32 倍数我知道线程被分组为 warp 并且如果您启动 1000 个线程 GPU 无论如何都会将其四舍五入到 1024

随机推荐

202318读书笔记｜《芭蕉·芜村·一茶：俳句三圣新译300》——樱花——让一整个春夜亮起来！

202318读书笔记芭蕉芜村一茶俳句三圣新译300 樱花让一整个春夜亮起来芭蕉芜村一茶俳句三圣新译300 诗歌词短歌俳句我都喜欢读起来轻松明快松尾芭蕉与谢芜村小林一茶并称三圣芭蕉为俳句之圣芜村一茶居至
StringBuffer进阶以及常用方法

StringBuffer 类 String类是在所有项目开发之中一定会使用到的一个功能类并且这个类拥有如下的特点每一个字符串的常量都属于一个 String 类的匿名对象并且不可更改 String 有两个常量池静态常量池运行时常量
java嵌套类（重点为静态成员类的说明和使用）

嵌套类 nested class nest d 被定义在另一个类的内部的类外围类 enclosing class 嵌套类 nested class 有四种静态成员类 static member class 非静态成员类 nonstati
mesa(OpenGL)安装

Mesa是一个类OpenGL http www opengl org 的开源实现环境 centos 7 安装方法1 步骤问题及解决在 configure 时报告以下错误 Requested libdrm intel gt 2 4 61
Linux中安装的Mysql中文插不进去

查看字符集编码 MySQL gt show variables like character 修改字符集编码方法如下 mysql gt set character set database utf8 注意有可能在修改之后仍然在写入中文是
整数除255快速算法的完全不严谨推导

在浏览一个帖子C 语言有什么奇技淫巧时无意看到一个整数除255快速算法其算法如下 define div 255 fast x x x 257 gt gt 8 gt gt 8 对此算法已有人给出证明255快除算法的证明和推广但对于我的
论Java多线程如何引发OOM—多线程开发知识点

Java ThreadLocal 如何引发 OOM Java 内存泄漏 ThreadLocal OOM 回顾ThreadLocal 强引用软引用弱引用虚引用 Java 内存泄漏内存溢出 Out Of Memory 是指应用系统中存在
k8s部署tomcat数据持久化

1 部署nfs服务器 yum y install nfs utils rpcbind 1 2 启动nfs服务 systemctl start nfs 1 3 检查rpcbind NFS rpcinfo p localhost program
论文笔记--用于人体姿势估计的深度双连续网络（Deep Dual Consecutive Network for Human Pose Estimation）

索引复杂情况下的多帧人体姿态估计是一种挑战尽管最先进的人体关节检测器在静态图像上表现出了显著的效果但当我们将这些模型应用于视频序列时它们的表现就显得不足了普遍存在的缺点包括无法处理运动模糊视频失焦或姿势遮挡这是因为无法捕捉到视
工具分享

随着电子邮件的普及电子邮件欺骗也变得越来越普遍电子邮件欺骗是一种针对用户的网络攻击攻击者通常伪装成合法的发送者来骗取用户的信息或资金为了保护用户的安全有必要使用一款强大的电子邮件欺骗漏洞检测工具 EVC就是一款非常优秀的工具功能
Android Studio 将项目转变成library（model）引入到另一个项目中使用

最近要将项目转换成library 引入到另一项目中使用所以记录引用的过程 1 修改配置 2 修改app文件夹里面的iml文件名称在APP文件夹下找到app iml 文件将文件名改为想要命名的名称这里改成loadingviewlir
服务器的文件共享,服务器文件共享设置

服务器文件共享设置内容精选换一换本文介绍了弹性文件服务SFS各特性版本的功能发布和对应的文档动态新特性将在各个区域 Region 陆续发布欢迎体验云耀云服务器默认设置的时区是您制作镜像时选择的时区如需修改请参见本节内容将
client mac addr不能开机进不去系统_电脑的系统进不去界面重装系统的方法

学会自己安装系统不求人全过程纯手打电脑系统界面进不去但屏幕只要有字哪怕左上角只有一横就可以重做系统电脑开机就怕一个字一个符号也没有重做系统只是c盘文件丢失其他盘文件还在但硬盘有毛病格式化硬盘或者重新分区所有的文件都没
关于Cubemx（HAL库）中ADC和DMA同时启用存在的问题

在使用Cubemx编程STM32时若同时开启ADC和DMA 则软件自动生成的代码如下可以看到 ADC初始化在DMA前面这样一来我们会发现从DMA提取的数据错误的原因就在它们两个初始化函数的先后顺序是有讲究的正确的顺序应该是DMA
学习如何使用电脑客户端和ESP8266客户端来连接MQTT服务端以及订阅主题发送主题操作

MQTT原理与应用学习如何使用电脑客户端和ESP8266客户端来连接MQTT服务端本文章学习借鉴于太极创客团队以表感谢官网 http www taichi maker com 文章目录 MQTT原理与应用一使用电脑客户端和ESP
Could not load dynamic library ‘libcusolver.so.11‘ No such file or directory； LD_LIBRARY_PATH:

今日在安装tensorflow的时候遇见不能使用gpu的情况经过一顿费劲网上搜集资料发现根本就没有人说明白这个事情特此做个笔记把这个报错一次性说明白一是为了给自己做个记录二是也希望能帮助大家首先基本高版本的tensor fl
Vue修改默认字体

1 在assets文件夹下创建文件夹命名为font 2 在font文件夹中新建文件 font css font face font family pingFangSC Medium src url PingFangMedium 0 ttf
时空复杂度（时间复杂度/空间复杂度）O(1)、O(n)、O(n^2)、O(log n)、O(n log n)是什么意思，借鉴然后自己借鉴出来

附上借鉴的地址 https blog csdn net lkp1603645756 article details 85013126 这些都是算法时空复杂度的表示不仅仅用于表示时间复杂度也用于表示空间复杂度 O后面的括号中有一个函数指
Matlab学习10-图像处理之傅里叶变换

文章目录前言一离散傅里叶变换二二维离散傅里叶变换三傅里叶级数将周期函数转换为不同正弦波的叠加前言图像变换一维离散变换二维离散变换傅里叶变换离散余弦变换 Matlab学习10 图像处理之傅里叶变换傅里叶变换优点
联合编译OpenCV+PCL+CUDA时需要注意的问题

最近在写tsdf的程序同时使用了OpenCV PCL和CUDA 在编译工程的时候发现了不少问题在这里整理一下 1 cu和cpp文件 global host device 这样开头的cuda程序只能写在cu文件中 kernal lt lt

联合编译OpenCV+PCL+CUDA时需要注意的问题

联合编译OpenCV+PCL+CUDA时需要注意的问题 的相关文章

随机推荐

热门标签

联合编译OpenCV+PCL+CUDA时需要注意的问题的相关文章