Cuda10.1总结1-概述

2023-10-30

概述

参考文献

官方在线文档：https://docs.nvidia.com/cuda/archive/10.1/。

由于网页加载速度比较慢，可以参考如下文档。
CUDA_C_Programming_Guide:C编程指南。
CUDA_C_Best_Practices_Guide:代码优化指南。
CUDA_Runtime_API:CUDA API。
CUDA_Driver_API:驱动API。

概念

Runtime API:可以理解为cuda的顶层API。使用简单，但效率较低。
Driver API:可以理解为cuda的底层API。使用复杂，但是效率较高。

编译

编译工具

在visual studio中，要想编译win32 的cuda10.1程序，必须是visual studio 2013或更低的版本。所以这种情况下使用visual studio 2013。
在visual studio 2013创建工程时，分为Nvidia项目和Visual C++项目。如果没有cu文件，创建Visual C++项目即可，但必须有cuda头文件目录\NVIDIA GPU Computing Toolkit\CUDA\v10.1\include，链接必须输入如下目录的库\NVIDIA GPU Computing Toolkit\CUDA\v10.1\lib。

在win32下，visual studio 2013编译为ptx文件时候，Compiler Output(obj/cubin)应该输入data/%(Filename)32.ptx，而不是data/%(Filename)64.ptx。这样就可以编译运行了。

PTX

参考https://zhuanlan.zhihu.com/p/432674688。

PTX编译的一个中间文件，类似于Java的虚拟机。具体流程入下图。
在这里插入图片描述

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OwIzfzPy-1678019381784)(Images/编译PTX说明图.png)]

编译器将cu文件编译成ptx文件。
在执行过程中，根据具体的GPU类型，将其编译为cubin文件。
执行cubin文件。

直接从内存中加载PTX文件

在生成环境中，如果多一个ptx文件，会增加目录设置的工作。可以从内存中直接加载ptx文件的二进制数据，而不是读取ptx文件。

读取ptx文件，输出其二进制数据。

//计算二进制文件的长度并读取
fxoFile.seekg(0, std::ios_base::end);
int32_t size = (int)fxoFile.tellg();
fxoFile.seekg(0, std::ios_base::beg);
char *fxoData = new char[size];
fxoFile.read(fxoData, size);

//输出这些二进制数据
int32_t i = 0;
for (i = 0; i < size; i++) {
	cout << left << setw(4) << int32_t(fxoData[i]) << ", ";
	if (i != 0 && (i + 1) % 10 == 0)
		cout << endl;
}

//输出其长度，核对正确性。
cout << "size = " << size << endl;

在程序中添加头文件。在其中输入char类型的数组，将输出的ptx二进制数据填入到这个数据中。
```
const char g_ptxBin[] = 
{
    ......
}；
```
在实际加载中，使用g_ptxBin地址即可。

性能

在最工作中，使用cuda10.1实现了部分图像处理。这说明cuda10.1的并行性非常的好。以前使用cuda4.1实现实现处理，由于并行性差而没有使用。
在最工作中，使用cuda10.1实现了部分图像处理。这说明cuda10.1的并行性非常的好。以前使用cuda4.1实现实现处理，由于并行性差而没有使用。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA101

c

Cuda10.1总结1-概述的相关文章

C 编程 - 文件 - fwrite

我有一个关于编程和文件的问题 while current NULL if current gt Id Doctor 0 current current gt next id doc current gt Id Doctor if curre
为什么 C# Array.BinarySearch 这么快？

我已经实施了一个很简单用于在整数数组中查找整数的 C 中的 binarySearch 实现二分查找 static int binarySearch int arr int i int low 0 high arr Length 1 mid
WCF RIA 服务 - 加载多个实体

我正在寻找一种模式来解决以下问题我认为这很常见我正在使用 WCF RIA 服务在初始加载时将多个实体返回给客户端我希望两个实体异步加载以免锁定 UI 并且我想利用 RIA 服务来执行此操作我的解决方案如下似乎有效这种方法会遇到
为什么两个不同的 Base64 字符串的转换会返回相等的字节数组？

我想知道为什么从 base64 字符串转换会为不同的字符串返回相同的字节数组 const string s1 dg const string s2 dq byte a1 Convert FromBase64String s1 byte a2
动态加载程序集的应用程序配置

我正在尝试将模块动态加载到我的应用程序中但我想为每个模块指定单独的 app config 文件假设我的主应用程序有以下 app config 设置
按成员序列化

我已经实现了template
ASP.NET MVC：这个业务逻辑应该放在哪里？

我正在开发我的第一个真正的 MVC 应用程序并尝试遵循一般的 OOP 最佳实践我正在将控制器中的一些简单业务逻辑重构到我的域模型中我最近一直在阅读一些内容很明显我应该将逻辑放在域模型实体类中的某个位置以避免出现贫血域模型反模式
类模板参数推导 - clang 和 gcc 不同

下面的代码使用 gcc 编译但不使用 clang 编译 https godbolt org z ttqGuL template
在 Windows 窗体中保存带有 Alpha 通道的单色位图会保存不同（错误）的颜色

在 C NET 2 0 Windows 窗体 Visual Studio Express 2010 中我保存由相同颜色组成的图像 Bitmap bitmap new Bitmap width height PixelFormat Form
将 VSIX 功能添加到 C# 类库

我有一个现有的单文件生成器位于 C 类库中如何将 VSIX 项目级功能添加到此项目最终目标是编译我的类库项目并获得 VSIX 我实际上是在回答我自己的问题这与Visual Studio 2017 中的单文件生成器更改 https s
什么时候虚拟继承是一个好的设计？ [复制]

这个问题在这里已经有答案了 EDIT3 请务必在回答之前清楚地了解我要问的内容有 EDIT2 和很多评论有或曾经有很多答案清楚地表明了对问题的误解我知道这也是我的错对此感到抱歉嗨我查看了有关虚拟继承的问题 class B p
使用 x509 证书签署 json 文档或字符串

如何使用 x509 证书签署 json 文档或字符串 public static void fund string filePath C Users VIKAS Desktop Data xml Read the file XmlDocum
链接器错误：已定义

我尝试在 Microsoft Visual Studio 2012 中编译我的 Visual C 项目使用 MFC 但出现以下错误 error LNK2005 void cdecl operator new unsigned int 2
如何使用 C# / .Net 将文件列表从 AWS S3 下载到我的设备？

我希望下载存储在 S3 中的多个图像但目前如果我只能下载一个就足够了我有对象路径的信息当我运行以下代码时出现此错误遇到错误消息读取对象时访问被拒绝我首先做一个亚马逊S3客户端基于我的密钥和访问配置的对象连接到服务器然后创
为什么编译时浮点计算可能不会得到与运行时计算相同的结果？

In the speaker mentioned Compile time floating point calculations might not have the same results as runtime calculation
通过指向其基址的指针删除 POD 对象是否安全？

事实上我正在考虑那些微不足道的可破坏物体而不仅仅是POD http en wikipedia org wiki Plain old data structure 我不确定 POD 是否可以有基类当我读到这个解释时is triviall
C# 成员变量继承

我对 C 有点陌生但我在编程方面有相当广泛的背景我想做的事情为游戏定义不同的 MapTiles 我已经像这样定义了 MapTile 基类 public class MapTile public Texture2D texture pu
基于 OpenCV 边缘的物体检测 C++

我有一个应用程序我必须检测场景中某些项目的存在这些项目可以旋转并稍微缩放更大或更小我尝试过使用关键点检测器但它们不够快且不够准确因此我决定首先使用 Canny 或更快的边缘检测算法检测模板和搜索区域中的边缘然后匹配边缘以查
是否可以在 .NET Core 中将 gRPC 与 HTTP/1.1 结合使用？

我有两个网络服务 gRPC 客户端和 gRPC 服务器服务器是用 NET Core编写的然而客户端是托管在 IIS 8 5 上的 NET Framework 4 7 2 Web 应用程序所以它只支持HTTP 1 1 https le
IEnumreable 动态和 lambda

我想在 a 上使用 lambda 表达式IEnumerable

随机推荐

js数组分类,一维数组转二维数组

原始数组 var arrayFirst code 1 datas a网吧 code 1 datas b网吧 code 2 datas a酒店 code 2 datas b酒店 code 3 datas a学校 code 3 datas b学
Flume系统搭建和使用的一些经验总结-搭建篇

对于很多公司来说日志的收集和集中管理是一个必然要经历的阶段我们公司在经历了一拖再拖之后终于不得不开始搭建日志收集系统了对于日志收集系统我们的首选就是Flume 为何这么坚决呢难道没有其他工具能做个这个事情么当然有不过考虑到
神经网络 01(介绍)

一神经网络人工神经网络 Artificial Neural Network 简写为ANN 也简称为神经网络 NN 是一种模仿生物神经网络结构和功能的计算模型人脑可以看做是一个生物神经网络由众多的神经元连接而成各个神经元传递复杂的
【夜莺监控方案】01-n9e-v5-server部署

文章目录前言 1 在线一键安装不推荐 2 自主安装推荐官方安装脚本 2 1 mysql 2 2 prometheus 2 3 n9e server 2 4 启动和开机自启 2 5 web查看 3 配置LDAP 前言相关文档如下 0
Python自制音乐下载器，实现听歌自由

前言今天发的就是最实用的文章让你用Python实现听歌自由不用再担心自己的钱包了文章末尾名片可直接领取代码代码实现导入模块 import os import re from urllib import parse import
[人工智能-深度学习-75]：环境 - Windows配置Github、Gitee共存的Git环境

作者主页文火冰糖的硅基工坊文火冰糖王文兵的博客文火冰糖的硅基工坊 CSDN博客本文网址 https blog csdn net HiWangWenBing article details 122261638 目录前言前置条件
获取response里的数据

String out null try ServletOutputStream os servletResponse getOutputStream Field ob ReflectionUtils findField os getClas
VS2015/QT creator + Qt5.8.0

PS 两个版本IDE都试过 VS的报错更详细方便找bug QT creator的界面更可爱输入时有绿色的Q弹的图标嘻嘻 QT版本 qt opensource windows x86 msvc2015 64 5 8 0 win10 vs2
微信小程序实例系列

实战微信小程序 redux 在原生微信小程序的使用实例微信小程序 weapp redux的使用文档微信小程序 Promise then success fail 执行顺序的问题微信小程序监听页面停止滚动微信小程序 CustomB
PIM协议原理与配置

PIM协议原理 PIM Protocol Independent Multicast 协议无关组播目前常用版本是PIMv2 PIM报文直接封装在IP报文中协议号为103 PIMv2组播地址为224 0 0 13 在PIM组播域中以组播
LOAM_velodyne学习（三）

终于到第三个模块了我们先来回顾下之前的工作点云数据进来后经过前两个节点的处理可以完成一个完整但粗糙的里程计可以概略地估计出Lidar的相对运动如果不受任何测量噪声的影响这个运动估计的结果足够精确没有任何漂移那我们可以直接利用
jenkins报“”Build step 'Execute Windows batch command' marked build as failure“”

报错信息如下解决方法
JVM垃圾回收器

1 垃圾回收器的位置 2 垃圾回收器的基本概念什么是垃圾回收器 JVM 为 Java 提供了垃圾回收机制是一种偏自动的内存管理机制简单来说垃圾回收器会自动追踪所有正在使用的对象并将其余未被使用的对象标记为垃圾 JVM会自动进行垃圾
前端知识

http www yyyweb com 5136 html 当经历所有大厂的实习后小鱼发布于 2018 08 15 分类程序人生阅读 43 评论 0 七月虽然不是一个丰收的季节但却是一个十分酷热的月份不知有多少小伙伴跟我一样顶
MySQL server和workbench安装使用

1 安装Notepad 运行下载的 npp 7 9 Installer x64 exe 2 安装MySQL 将mysql 8 0 22 winx64 zip解压缩我将其放置D盘根目录下进入文件夹在目录中新建文件夹data和文件my i
docker登录私有镜像仓库时报错： x509: certificate signed by unknown authority

文章目录描述报错解决步骤描述由于机器在内网无法使用yum或rpm安装docker 所以使用的是离线安装安装完成后发现无法登录镜像地址报错 Error response from daemon Get https swr cn
队列的应用——(一)广度优先搜索

在队列中同样可以用于走迷宫而且会出现一个与之前不同的情形代码如下 C myqueue h include
OTA-apache本地服务器的搭建以及配置说明

1 下载适配到本机型的Apache msi软件这里我的电脑是32位的下载的是apache 2 2 8 win32 x86 no ssl msi 2 apache环境变量的搭建在计算机系统 gt 高级 gt 环境变量下的PATH后面添加
一次注册表事故--无法打开exe文件

下载了腾讯手游助手之后发现exe 的安装程序打不开这就很郁闷了下载了不同版本的都是打不开难道是安装包有问题为什么别人的电脑就能安装我的电脑exe文件都能打开为什么就腾讯手游助手不能打开呢去网上搜集解决方法百度经验上看到说是
Cuda10.1总结1-概述

概述参考文献官方在线文档 https docs nvidia com cuda archive 10 1 由于网页加载速度比较慢可以参考如下文档 CUDA C Programming Guide C编程指南 CUDA C Best P