cuda c by example - 1

2023-11-08

并行计算大当其道,cuda c, 给了开发者与NVIDIA 通用型GPU设备交互的能力,举2个栗子先了解一下,

1,枚举设备属性代码

int main( void ) {
    cudaDeviceProp  prop;

    int count;
    HANDLE_ERROR( cudaGetDeviceCount( &count ) );
    for (int i=0; i< count; i++) {
        HANDLE_ERROR( cudaGetDeviceProperties( &prop, i ) );
        printf( "   --- General Information for device %d ---\n", i );
        printf( "Name:  %s\n", prop.name );
        printf( "Compute capability:  %d.%d\n", prop.major, prop.minor );
        printf( "Clock rate:  %d\n", prop.clockRate );
        printf( "Device copy overlap:  " );
        if (prop.deviceOverlap)
            printf( "Enabled\n" );
        else
            printf( "Disabled\n");
        printf( "Kernel execution timeout :  " );
        if (prop.kernelExecTimeoutEnabled)
            printf( "Enabled\n" );
        else
            printf( "Disabled\n" );

        printf( "   --- Memory Information for device %d ---\n", i );
        printf( "Total global mem:  %ld\n", prop.totalGlobalMem );
        printf( "Total constant Mem:  %ld\n", prop.totalConstMem );
        printf( "Max mem pitch:  %ld\n", prop.memPitch );
        printf( "Texture Alignment:  %ld\n", prop.textureAlignment );

        printf( "   --- MP Information for device %d ---\n", i );
        printf( "Multiprocessor count:  %d\n",
                    prop.multiProcessorCount );
        printf( "Shared mem per mp:  %ld\n", prop.sharedMemPerBlock );
        printf( "Registers per mp:  %d\n", prop.regsPerBlock );
        printf( "Threads in warp:  %d\n", prop.warpSize );
        printf( "Max threads per block:  %d\n",
                    prop.maxThreadsPerBlock );
        printf( "Max thread dimensions:  (%d, %d, %d)\n",
                    prop.maxThreadsDim[0], prop.maxThreadsDim[1],
                    prop.maxThreadsDim[2] );
        printf( "Max grid dimensions:  (%d, %d, %d)\n",
                    prop.maxGridSize[0], prop.maxGridSize[1],
                    prop.maxGridSize[2] );
        printf( "\n" );
    }
}

结果

marco@marco-System-Product-Name:~/Tests/chapter03$ nvcc -arch sm_60 enum_gpu.cu -o enum_gpu
marco@marco-System-Product-Name:~/Tests/chapter03$ ./enum_gpu 
   --- General Information for device 0 ---
Name:  GeForce GTX 1050 Ti
Compute capability:  6.1
Clock rate:  1392000
Device copy overlap:  Enabled
Kernel execution timeout :  Enabled
   --- Memory Information for device 0 ---
Total global mem:  4233035776
Total constant Mem:  65536
Max mem pitch:  2147483647
Texture Alignment:  512
   --- MP Information for device 0 ---
Multiprocessor count:  6
Shared mem per mp:  49152
Registers per mp:  65536
Threads in warp:  32
Max threads per block:  1024
Max thread dimensions:  (1024, 1024, 64)
Max grid dimensions:  (2147483647, 65535, 65535)

多GPU情况下如何选择合适的GPU设备运行保证性能呢?

int main( void ) {
    cudaDeviceProp  prop;
    int dev;

    HANDLE_ERROR( cudaGetDevice( &dev ) );
    printf( "ID of current CUDA device:  %d\n", dev );

    memset( &prop, 0, sizeof( cudaDeviceProp ) );
    prop.major = 1;
    prop.minor = 3;
    HANDLE_ERROR( cudaChooseDevice( &dev, &prop ) );
    printf( "ID of CUDA device closest to revision 1.3:  %d\n", dev );

    HANDLE_ERROR( cudaSetDevice( dev ) );
}

结果:当然当前只有一个设备满足哈

marco@marco-System-Product-Name:~/Tests/chapter03$ ./set_gpu 
ID of current CUDA device:  0
ID of CUDA device closest to revision 1.3:  0

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

cuda c by example - 1 的相关文章

  • VCSA服务重启命令

    Sphere Web Client界面的服务分别是 vmware mbcs vmware netdumper vmware rbd watchdog 分别执行命令确认 首先执行命令 service control status vmware
  • python实现-逆波兰式-进阶-基本计算器

    作者 芝士小熊饼干 系列专栏 数据结构 蓝桥杯 算法 坚持天数 21天 逆波兰式 chat gpt分析 逆波兰表达式 Reverse Polish Notation RPN 也称为后缀表达式 是一种不需要括号来表示运算符优先级的数学表达式表
  • 【BingGPT对话记录】基于格的密码学简介

    格密码学是一种基于格 lattice 的数学结构的密码学分支 它具有抵抗量子计算攻击的特性 格是一个由线性无关向量生成的离散点集 可以用来描述许多复杂的几何和代数问题 格密码学的安全性通常建立在最坏情况下的难度假设上 即即使给定最优化算法
  • 4.Docker网络配置

    网络相关 IP 子网掩码 网关 DNS 端口号 子网掩码 互联网是由许多小型网络构成的 每个网络上都有许多主机 这样便构成了一个有层次的结构 IP 地址在设计时就考虑到地址分配的层次特点 将每个 IP 地址都分割成网络号和主机号两部分 以便
  • Java private方法访问

    大家知道 Java中private修饰符修饰的方法或属性 只有在该类内可以访问 其他类均无法访问 事实真的是这样吗 下面一个例子可以实现访问一个类中的private方法 原理是通过Java的反射机制 感觉Java反射机制在这点似乎不太安全
  • 手把手教你使用LabVIEW OpenCV dnn实现物体识别(Object Detection)含源码

    文章目录 前言 一 物体识别算法原理概述 1 物体识别的概念 2 Yolo算法原理概述 二 opencv调用darknet物体识别模型 yolov3 yolov4 1 darknet模型的获取 2 python调用darknet模型实现物体
  • 深度学习环境配置1——windows下的tensorflow-gpu=1.13.2环境配置

    深度学习环境配置1 windows下的tensorflow gpu 1 13 2环境配置 注意事项 一 2021 9 11更新 二 2021 7 8更新 三 2020 11 5更新 学习前言 环境内容 环境配置 一 Anaconda安装 1
  • Android - Session 'app': Error Installing APK或installaion failed intall_parse_failed_manifest_的解决方法

    在Android Studio中启动模拟器的时候偶尔会遇到以下的问题 1 installaion failed with message intall parse failed manifest malformed 2 Session ap
  • 【Linux:进程间信号】

    文章目录 1 生活角度的信号 2 技术应用角度的信号 3 信号的产生 3 1 由系统调用向进程发信号 3 1 1 signal 3 1 2 kill 3 1 3 raise 3 2 由软件条件产生信号 3 3 硬件异常产生信号 3 4 通过
  • Git使用操作规范

    一 创建自己的开发分支 1 1 配置Git环境 1 1 1 Windows平台上安装 1 1 2 Linux平台上安装 1 1 3 Mac平台上安装 1 1 4 基本概念名词解释 Git 工作区 暂存区和版本库 工作区 就是你在电脑里能看到
  • Unity UGUI 无限循环列表 ----------多功能版

    一共有四种 循环列表 如下图 1 常用循环列表 2 收展嵌套 循环列表 3 弹框 循环列表 4 翻页 循环列表 注意点 1 层次结构如下图 2 Content 和 Item 控件锚点必须为如图 使用方式 只举例常用列表 其他列表查看 GIt
  • JDE(Towards Real-Time Multi-Object Tracking)代码训练——小白必看

    前言 自己在跑JDE多目标跟踪代码时 总结的方法和教训 一 数据集制作 1 可直接下载作者给的数据集 是制作好的 论文链接 https arxiv org pdf 1909 12605v1 pdf 代码链接 https github com
  • 如何使用oracle修改表字段长度

    系列文章目录 ORACLE简介 Oracle是一种关系数据库管理系统 RDBMS 广泛应用于企业应用程序中 它是由甲骨文公司在20世纪70年代末开发的 自此成为世界上最流行的数据库系统之一 Oracle以其可扩展性 可靠性和安全性而闻名 它
  • USB无线网卡的用途及编程实现

    USB无线网卡是一种设备 它可以通过USB接口连接到计算机 并提供无线网络连接功能 在本文中 我们将探讨USB无线网卡的用途以及如何通过编程实现相关功能 用途 提供无线网络连接 USB无线网卡允许计算机通过无线信号连接到网络 这对于那些没有
  • 【Java】------- Base64格式图片保存到服务器文件

    一 使用技术 Java Springboot 二 代码实例 fun base64ToImage base64转成图片格式 提示 data image png base64 的前缀要去掉 param imgBase64 base64 数据 p
  • Griffin 数据管理任务的SQL和原理

    文章目录 各种Measure内部计算原理 accuracy completeness distinct timeliness uniqueness profiling spark sql pre proc Service 任务管理模块 配置
  • JUC常用到的类

    JUC java util concurrent 并发包中包含了许多并发编程中需要用到的类 锁 如ReentratLock ReadWriteLock ReentrantLock重入锁 可以替代synchronized使用 并且有更多强大的
  • 在windows内使用virtualbox搭建安卓x86--以及所遇到的问题解决--3

    一 ARM兼容包的植入 1 下载arm包 2 安装arm兼容包 3 验证arm兼容包是否移植成功 二 触屏无效 三 玩游戏卡顿严重 一 ARM兼容包的植入 在AndroidX86系统内大部分应用 国内 并没有适配X86架构 安装基于arm架
  • Python实验作业

    Python实验作业 1 实验题目 中文数字对照表 输入一个数字 转换成中文数字 比如 1234567890 gt 壹贰叁肆伍陆柒捌玖零 chinese number 零 壹 贰 叁 肆 伍 陆 柒 捌 玖 numeber input 请输
  • Vue-组件

    Vue 组件 组件之间的父子关系 使用组件的三个步骤 私有组件 通过components 注册的是私有子组件 全局组件 在vue 项目的main js 入口文件中 通过Vue component 方法 可以注册全局组件 import Vue

随机推荐

  • 【css面试题】实现2栏布局 右侧自适应; 3栏布局 中间自适应

    2栏布局 右侧自适应 flex grid table float div class son1 div
  • ROS 中写 python 的 roslaunch

    文章目录 1 必看教程 快速入门 1 1 快速入门ROS的视频教程 里面有一节是专门讲 roslaunch 的 https www bilibili com video av59458869 1 2 PDF文档 How to create
  • Chisel(四)Scala语法 操作符

    学习更多相关知识 关注博主知乎账号 用户名Trustintruth https www zhihu com people suo yi xin 90 activities Scala追求的是纯粹的面向对象 不推荐不属于面向对象的基本类型及其
  • UnityShader基础(五)——进阶纹理

    一 立方体纹理 立方体纹理是环境映射的一种实现方式 立方体纹理就是立方体的六个面 每个面有一个纹理 一般用于映射出物体周围环境 和基础纹理不同 采样立方体纹理需要一个三维坐标 而这个三维坐标由一条向量与立方体的交点构成 注意采样时 向量是由
  • 印度黑客号称世界第一,结果第二天被中国黑客干掉了

    以往中国黑客 俄罗斯黑客 美国黑客会不时出现在新闻头条里 但现在印度黑客也开始崛起 成为一股不可忽视的力量 由于历史原因 印度在经济上比较依赖欧美 经济联系也比较紧密 印度人在软件开发上有着语言上的优势 例如一个印度中学生把主要精力花在学软
  • Linux教程之文本处理(sed,xargs,wc)

    Linux教程之文本处理 sed xargs wc 适用于 ubuntu 20 04 ubuntu 20 04 是 西柚云 主要使用的操作系统 西柚云官网 sed sed 可以对文件中的文本内容进行过滤和修改 它的原理是逐行读入文本内容 根
  • Mysql数据库drop表不用跑路,表空间传输助你恢复数据

    今天给大家介绍一种 在Mysql数据库中 利用InnoDb的表空间传输功能 帮助你恢复drop的业务表 Mysql表空间传输限制 要使用Mysql数据库表空间传输功能 有2个限制 1 Mysql数据库版本必须在5 6以上 2 Mysql数据
  • 冒泡法详解

    目录 什么是冒泡法 冒泡法思路 代码的实现 什么是冒泡法 冒泡排序 Bubble Sort 是一种计算机科学领域的较简单的排序算法 这个算法的名字由来是因为越小的元素会经由交换慢慢 浮 到数列的顶端 升序或降序排列 就如同碳酸饮料中二氧化碳
  • 大数据和人工智能关系的基本介绍

    人工智能主要有三个分支 1 基于规则的人工智能 2 无规则 计算机读取大量数据 根据数据的统计 概率分析等方法 进行智能处理的人工智能 3 基于神经元网络的一种深度学习 基于规则的人工智能 在计算机内根据规定的语法结构录入规则 用这些规则进
  • 搜索引擎solr系列---多字段匹配的实现方法

    solr可以实现多字段匹配查询的结果 即传入一个条件 可以按照你预选设置好的匹配范围去匹配数据 将匹配到的所有数据返回 比如现在我有如下这样的需求 数据库中fbf表中有多个字段 其中有几个中文字段 现在要求传入汉字 对其中的四个中文字段进行
  • 人脸属性识别 - 使用多任务学习模型在CelebA数据集上进行人脸属性识别任务

    简介 人脸属性识别是计算机视觉领域的一个重要应用 它可以用于人脸检测 人脸识别 表情识别等多个领域 本文将介绍如何使用多任务学习模型在CelebA数据集上进行人脸属性识别任务 我们将使用Python编写代码 并使用PyTorch框架搭建我们
  • 云计算基础架构

    原文地址 http www chinacloud cn show aspx id 15922 cid 12 云计算不仅是技术 更是服务模式的创新 云计算之所以能够为用户带来更高的效率 灵活性和可扩展性 是基于对整个IT领域的变革 其技术和应
  • 基础算法:差分

    题目 输入一个长度为 n 的整数序列 接下来输入 m 个操作 每个操作包含三个整数 l r c 表示将序列中 l r 之间的每个数加上 c 请你输出进行完所有操作后的序列 差分 若数组A a1 a2 a3 数组B b1 b2 b3 满足a1
  • java种语言包在线翻译_Java 实现在线翻译功能 调用微软Bing API

    下面是利用java程序实现翻译功能 调用微软Bing API 注意 代码中的keyId 需要自己申请 2 去申请key 进入http www bing com developers createapp aspx 填写相关的你的应用信息就行了
  • pikachu靶场之暴力破解

    暴力破解 是一攻击具手段 在web攻击中 一般会使用这种手段对应用系统的认证信息进行获取 其过程就是使用大量的认证信息在认证接口进行尝试登录 直到得到正确的结果 为了提高效率 暴力破解一般会使用带有字典的工具来进行自动化操作 理论上来说 大
  • 计算机网络主要分为哪几类?

    通俗地讲 计算机网络就是由多台计算机或其他计算机网络设备通过传输介质和软件物理 或逻辑 连接在一起组成的 从总体上来说 计算机网络的组成基本上包括计算机 网络操作系统 传输介质 可以是有形的 也可以是无形的 如无线网络的传输介质就是空气 和
  • vue-cli搭建项目

    一 全局化安装cnpm 其实对于安装vue cli 使用npm命令和cnpm命令都是可以的 个人觉得使用npm安装的比较慢 而且很可能会因为网络问题而出错 所以还是觉得使用cnpm稳一点 npm install cnpm g registr
  • 第35讲:Xposed+模拟器的详细使用

    如果你对逆向有所涉猎的话 可能听说过 Hook 利用 Hook 技术我们可以在某一逻辑的前后加入自定义的逻辑处理代码 几乎可以实现任意逻辑的修改 在前面的 JavaScript 逆向实战课时我们也初步体会了 Hook 的功效 如果你对 Ho
  • 一 , Element-UI tabs标签实现点击左右箭头 实现左右tab栏按个选中切换(正常是只会切换到后面空白tab栏 不会选中) .........二 , tabs标签切换不同的模板样式

    div class TAb div class xiangzuo i class el icon arrow left i div div
  • cuda c by example - 1

    并行计算大当其道 cuda c 给了开发者与NVIDIA 通用型GPU设备交互的能力 举2个栗子先了解一下 1 枚举设备属性代码 int main void cudaDeviceProp prop int count HANDLE ERRO