CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below m

2023-05-16

UPDATE 2023 01 11
我觉得评论区的方法比我的方法更加简单，建议诸位老铁先看评论区：
在这里插入图片描述

好兄弟们看看是不是这个错：

RuntimeError: CUDA error: device-side assert triggered
CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1.

先在上边儿导入 os 库，把那个环境变量导入：

import os
os.environ['CUDA_LAUNCH_BLOCKING'] = '1' # 下面老是报错 shape 不一致

这样再出错了，打印的信息就比较详细了

这是原来的报错信息，这个报错信息，参考价值不大，好兄弟可以看后面：

torch.Size([4, 1, 96, 96, 96]) torch.Size([4, 1, 96, 96, 96])
Training (0 / 20 Steps) (loss=4.11153):   2%|▏         | 1/58 [00:14<13:44, 14.47s/it]
torch.Size([4, 1, 96, 96, 96]) torch.Size([4, 1, 96, 96, 96])
Training (1 / 20 Steps) (loss=4.06208):   2%|▏         | 1/58 [00:27<13:44, 14.47s/it]
Validate (X / X Steps) (dice=X.X):   0%|          | 0/5 [00:00<?, ?it/s]
torch.Size([2, 321, 307, 178]) torch.Size([2, 321, 307, 178])
----------------------------------------
/pytorch/aten/src/ATen/native/cuda/ScatterGatherKernel.cu:312: operator(): block: [189,0,0], thread: [1,0,0] Assertion `idx_dim >= 0 && idx_dim < index_size && "index out of bounds"` failed.
/pytorch/aten/src/ATen/native/cuda/ScatterGatherKernel.cu:312: operator(): block: [63,0,0], thread: [60,0,0] Assertion `idx_dim >= 0 && idx_dim < index_size && "index out of bounds"` failed.
/pytorch/aten/src/ATen/native/cuda/ScatterGatherKernel.cu:312: operator(): block: [149,0,0], thread: [6,0,0] Assertion `idx_dim >= 0 && idx_dim < index_size && "index out of bounds"` failed.
/pytorch/aten/src/ATen/native/cuda/ScatterGatherKernel.cu:312: operator(): block: [149,0,0], thread: [12,0,0] Assertion `idx_dim >= 0 && idx_dim < index_size && "index out of bounds"` failed.
Validate (X / X Steps) (dice=X.X):   0%|          | 0/5 [00:27<?, ?it/s]
Training (1 / 20 Steps) (loss=4.06208):   2%|▏         | 1/58 [00:55<53:07, 55.92s/it]
---------------------------------------------------------------------------
RuntimeError                              Traceback (most recent call last)
Input In [7], in <cell line: 97>()
     96 metric_values = []
     97 while global_step < max_iterations:
---> 98     global_step, dice_val_best, global_step_best = train(
     99         global_step, train_loader, dice_val_best, global_step_best
    100     )
    101 model.load_state_dict(torch.load(os.path.join(root_dir, "best_metric_model.pth")))

Input In [7], in train(global_step, train_loader, dice_val_best, global_step_best)
     56 if (
     57     global_step % eval_num == 0 and global_step != 0
     58 ) or global_step == max_iterations:
     59     epoch_iterator_val = tqdm(
     60         val_loader, desc="Validate (X / X Steps) (dice=X.X)", dynamic_ncols=True
     61     )
---> 62     dice_val = validation(epoch_iterator_val)
     63     epoch_loss /= step
     64     epoch_loss_values.append(epoch_loss)

Input In [7], in validation(epoch_iterator_val)
     17 # print(val_output_convert[1].shape, val_labels_convert[1].shape)
     18 print("-"*40)
---> 19 print(val_output_convert[0].cpu().numpy().max(), 
     20       val_labels_convert[0].cpu().numpy().max())
     21 print(val_output_convert[0].cpu().numpy().min(), 
     22       val_labels_convert[0].cpu().numpy().min())
     23 # print(val_labels_convert.max(), val_labels_convert.min())

RuntimeError: CUDA error: device-side assert triggered
CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1.

这是我错误的地方：

x, y = (batch["image"].cuda(), batch["label"].cuda())
print(x.shape, y.shape)
logit_map = model(x)
print(logit_map.shape, "FUCKCKKCKCKCCK")

torch.Size([4, 1, 96, 96, 96]) torch.Size([4, 1, 96, 96, 96])
torch.Size([4, 14, 96, 96, 96]) FUCKCKKCKCKCCK

稍微看一下程序，x 显然就是输出的图片，而 y 就是对应的label，logit_map 就是对应的预测map

好兄弟们可能猜到了，我这个是3D的分割，所以维度是5，后面的[96, 96, 96] 是输出的shape
那个4是batch_size，1 那一维，是输出的类别

我这个是只有前景和背景，所以只要分两类就可以了，这里应该改成2

话说如果真的就这么简单，我就不氵这篇博客，碰到这个问题的老铁们，一定是拿来改别人代码，没改完整，才遇到这个问题的，今儿咱们就说叨说叨

改写自己的数据集，嗯，一般就是新写一个Dataset类，要是他的数据集格式和你的一样，那直接改路径就好了
改写输出的模型，一般你的输入都是三通道，输入参数 input_channel 一般不用改，但是输出的类别要改啊，你是输出几类，就是改几类
(分割这里有个问题，有的模型会包括背景，有的会不包括背景，涉及到一个 +1 或者 -1 的问题)

一般来说，模型的输入或者输出通道数，都会在模型的构造函数最开始定义，下边的例子就是改一下out_channels 就行

model = UNETR(
    in_channels=1,
    out_channels=2,   # <------------ 改这里
    img_size=(96, 96, 96),
    feature_size=16,
    hidden_size=768,
    mlp_dim=3072,
    num_heads=2,  # 这里这个类别要改的
    pos_embed="perceptron",
    norm_name="instance",
    res_block=True,
    dropout_rate=0.0,
).to(device)

改前处理，这个也可以看做数据增强的一部分，这里一般不涉及通道数或者类别的改动，但是某些域的照片，可能不适合另一个域的数据增强方法，比如医学图像一般只用：

Randomly adjust intensity for data augmentation
而如果你用随机旋转就不是很合适

后处理，一般有NMS什么的，不用改
但是在我遇到的问题中，有这个

post_label = AsDiscrete(to_onehot=2)                 # 这里是需要改的
post_pred = AsDiscrete(argmax=True, to_onehot=2)     # 这里是需要改的

官网的解释：

Execute after model forward to transform model output to discrete values.

It can complete below operations:
    -  execute `argmax` for input logits values.
    -  threshold input value to 0.0 or 1.0.
    -  convert input value to One-Hot format.
    -  round the value to the closest integer.

反正就是把你的结果离散化，你看到 one_hot 眼睛其实就有光了(因为这个东西的长度会随着需求的变化而改变)，所以这里也要改

后面的 loss 和 optimizer 一般不用改，看心情吧
一个没什么用的trick，我还是拿例子说

https://github.com/Project-MONAI/research-contributions/tree/master/UNETR/BTCV
在这里插入图片描述
我这个问题是器官分割，一个13个器官，加上一个背景，一共14类
所以要改的地方有：

只有这三个，在那个页面，按住 ctrl + F ，输入 14 一个一个看，是不是需要改的

这么憨憨的方法，我最开始咋没想到呢。。。。。。

有参考自：
https://blog.csdn.net/Penta_Kill_5/article/details/118085718

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA

Kernel

Errors

might

asynchronously

CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below m 的相关文章

使用sk_buff添加以太网帧头

我有一个捕获传出互联网流量的内核模块 Netfilter hook LOCAL OUT 在此挂钩处仍然没有以太网标头我构建了以太网头并且可以使用了但是如何将其连接到skb这样我就可以将整个 skb 结构发送到dev queue xmi
“gld/st_throughput”和“dram_read/write_throughput”指标之间有什么区别？

在 CUDA 可视化分析器版本 5 中我知道 gld st requested throughput 是应用程序请求的内存吞吐量然而当我试图找到硬件的实际吞吐量时我很困惑因为有两对似乎合格的指标它们是 gld st throug
CUDA 中指令重放的其他原因

这是我从 nvprof CUDA 5 5 获得的输出 Invocations Metric Name Metric Description Min Max Avg Device Tesla K40c 0 Kernel MyKernel do
为什么这段代码会死锁？

我在可加载模块中创建了 2 个 Linux 内核线程并将它们绑定到在双核 Android 设备上运行的单独 CPU 内核运行几次后我注意到设备重新启动并重置了硬件看门狗定时器我一直在解决这个问题什么可能导致僵局基本上我需要做的
OS X 10.8 上的 PyCuda / 多处理问题

我正在开发一个项目将计算任务分配给多个 python 进程每个进程都与其自己的 CUDA 设备关联生成子进程时我使用以下代码 import pycuda driver as cuda class ComputeServer obje
如何编译一个简单的 multiboot2 裸机可执行文件？

我想开始写一个操作系统内核然后我找到了一个document http nongnu askapache com grub phcoder multiboot pdf引入 multiboot2 规范有三个示例代码文件名为boot S
PyInstaller 是否包含 CUDA

我正在开发一个Python脚本我使用Python 3 7 3 它使用tensorflow gpu 1 14 0 并使用PyInstaller 3 5将此脚本转换为可执行文件我使用的是 CUDA 10 0 和 cuDNN 7 6 1 我的
CUDA Thrust 的多 GPU 使用

我想使用我的两张显卡通过 CUDA Thrust 进行计算我有两张显卡在单卡上运行对于两张卡都适用即使我在 std vector 中存储两个 device vector 也是如此如果我同时使用两张卡循环中的第一个周期将起作用并且不
在构建内核模块时为什么需要 /lib/modules？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案在Kbuild树中当我们编写一个简单的hello ko程序时为什么我们需要在构建规则中使用 C lib module 为什么需要这样做
CUDA NSight 未随 Windows 8 上的 CUDA 5.0 安装文件一起安装？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案据我所知 Nvidia 网站上没有 Nsight Eclipse 的下载链接它说它将由 CUDA 5 安装本机安装但并没有随CUDA安装一起安装
Linux 上的“软/硬 nofile”是什么意思

当我尝试在RedHat EL5上安装软件时我得到了错误软硬nofile的期望值是4096 而默认值是1024 我设法增加了这个数字但我不知道参数是什么他们指的是软链接和硬链接吗我改变的方法是 a 修改 etc security
如何在CUDA应用程序中正确应用线程同步？

一般来说我在应用程序中偶尔会使用线程同步因为我并不经常需要此功能我并不是真正的高级 C C 程序员但我也不是初学者我开始学习 CUDA C 对当今 GPU 与 CPU 的能力相比感到兴奋我意识到 CUDA 编程主要是关于并行线程
CUDA 添加矩阵的行

我试图将 4800x9600 矩阵的行加在一起得到一个 1x9600 的矩阵我所做的是将 4800x9600 分成 9 600 个矩阵每个矩阵长度为 4800 然后我对 4800 个元素进行缩减问题是这真的很慢有人有什么建议吗
CUDA Thrust 库中counting_iterators 的用途和用法

我很难理解counting iterator在 CUDA 的推力库中它的目的是什么以及如何使用它在其他编程语言例如 C 中也可用吗计数迭代器只是一个迭代器它从每次迭代器递增时前进的序列中返回下一个值最简单的例子是这样的 incl
使用 cudamalloc()。为什么是双指针？

我目前正在浏览有关的教程示例http code google com p stanford cs193g sp2010 http code google com p stanford cs193g sp2010 学习CUDA 演示的代码 g
使用推力来处理 CUDA 类中的向量？

我对 C 类的推力的适用性有疑问我正在尝试实现一个类对象该对象接收顶点的 x y z 坐标作为 ver1 ver2 和 ver3 然后分配给一个三角形并计算面积和法向量然而我不太明白如何创建一类推力向量这是我从文件中读取的顶点坐
警告：Windows 调试器中的 [something] 与 [something] 重叠是什么意思？

我正在为 uni 项目的一部分编辑 Windows Research Kernel WRK 有时当我启动运行我的内核的虚拟机时 Windows 调试器会显示如下内容 WARNING rdpdr overlaps raspptp baa740
CUDA-Kernel 应该根据块大小动态崩溃

我想做稀疏矩阵密集向量乘法假设用于压缩矩阵中条目的唯一存储格式是压缩行存储 CRS 我的内核如下所示 global void krnlSpMVmul1 float data mat int num nonzeroes unsigned
完全禁用 NVCC 优化

我正在尝试测量 GPU 上的峰值单精度触发器为此我正在修改 PTX 文件以在寄存器上执行连续的 MAD 指令不幸的是编译器正在删除所有代码因为它实际上没有做任何有用的事情因为我没有执行任何数据的加载存储是否有编译器标志或编译指
如何从尖点库矩阵格式获取原始指针

我需要从尖点库矩阵格式获取原始指针例如 cusp coo matrix

随机推荐

C++详解：枚举类型 --- enum | Xunlan_blog

文章目录一概念二定义枚举元素表三定义枚举对象的操作四要点 amp 技巧实例一概念枚举类型 enumeration xff0c 是C 43 43 中的一种派生数据类型 xff0c 是用户创建的一个集合 xff0c 可以增加
使用vue3+axios和后端交互时无法改变的data中的数据

今天在编写前端页面的时候 xff0c 打算引入axios进行ajax请求 xff0c 可以在这个过程中遇到了一个非常大的坑 xff0c 先来看看有坑的代码我们看一下浏览器端的console的打印情况可以看到 xff0c 第二次打印thi
Ubuntu20.04搜狗输入法官方安装指南实操

前言 linux下也想用已经熟悉的搜狗输入法 xff0c 于是乎 xff0c 在网上查各种教程 xff0c 发现很多都不能成功 xff0c 在要放弃的时候 xff0c 下面这个链接帮助自己完成了这个任务 xff1a 官方教程 xff1a U
国王游戏——c++实现

题目描述恰逢 H 国国庆国王邀请 n 位大臣来玩一个有奖游戏首先他让每个大臣在左右手上面分别写下一个整数 xff0c 国王自己也在左右手上各写一个整数然后 xff0c 让这 n 位大臣排成一排 xff0c 国王站在队伍的最前面
正确打开db文件的方式，避免乱码和无意义内容

db文件如果用记事本或者Notepad 43 43 打开 xff0c 会显示乱码 xff0c 改变编码不能解决问题 xff0c 如果用UltraEdit打开 xff0c 可以看到进制数据 xff0c 但是无意义的正确的方法有多种 xff1
深度优先搜索——枚举组合

所谓枚举组合 xff0c 其实就是从若干个选若干个数比如x 1 x 2 x 3 x 4 x n 每个数字时0 xff08 不选 xff09 和1 xff08 选 xff09 x表示当前选到第几个书 xff0c dep表示选了几个数对于每
更新个祥硕ASM1153E开卡转接板的固件，详细教程

固态硬盘开卡需要使用USB转接板连接电脑 xff0c 使用那些未经验证的普通硬盘盒开卡 xff0c 经常会碰到一些千奇百怪的错误而导致开卡失败 xff0c 专用开卡板可以让你少走很多弯路注意 xff1a 目前sata转usb的桥接芯片
Android获取OAID

目录写在最前面写在前面说明文档 SDK使用过程 xff1a 代码实现写在最前面看评论有好些朋友遇到了一些我没遇到的问题 xff0c 而且看官方文档也已经更新 xff0c 想着这些问题官方是不是已经优化解决了 xff0c 就按着最新
Java基础——隐式转换vs强制转换

在定义变量时 xff0c 有许多要注意的问题 xff0c 一不小心就会出现损失精度或者不兼容类型等问题例如 xff1a 1 定义长整型数据时 xff0c 必须加后缀 l 或 L long l 61 123456789012345L 2 定
【Open CASCADE -生成MFC和QT事例方式】

源代码目录 adm目录 xff1a 包含编译OCCT的相关工程 adm cmake目录 xff1a 包含使用CMake构建OCCT的相关处理脚本 adm msvc目录 xff1a 包含window平台 Visual C 43 43 2010
Kotlin学习笔记八、Kotlin简单控件的使用

1 按钮Button xff1a Button是Android最常用的控件之一其用法我们这里主要是关注三个方面 xff0c 一是点击事件 xff0c 二是长按事件 xff0c 三是设置文本点击背景效果等等其中点击事件和长按事件用法上跟
java代码实现将spark数据集json字符串转为具体对象

依赖引入 span class token generics span class token punctuation lt span dependency span class token punctuation gt span span
飞桨: Error: op accuracy does not have kernel for data_type[int64_t]:data_layout[ANY_LAYOUT]:place

当前版本的paddle是1 7 老铁们大家来看看完整的报错是不是这个 Error op accuracy does not have kernel for data type int64 t data layout ANY LAYOUT
adobe AE: 磁盘缓存文件夹所在的驱动器没有足够的可用空间来安全存储在首选项中指定的全部量

看着挺玄乎 xff0c 就是说 xff0c 该软件要求性能高 xff0c 你现在没用足够的磁盘空间给我缓存其默认为C盘 xff0c 故而大部分笔记本电脑可能不满足所以我们换一个目录就行了在其他盘新建一个文件夹选择即可 xff0c 但别
TypeError: `method` object is not subscriptable

今天遇到一个特别尴尬的问题 xff1a TypeError span class token punctuation span span class token string 39 method 39 span span class tok
教授、研究员、高级工程师、工程师，各系列职称体系对比

教授研究员高级工程师工程师 xff0c 各系列职称体系对比 xff1a 我找了好久 xff0c 终于找到一个全的 xff1a 一 xff1a 高校教育系列一般是即从事教学又从事科研的教师系列职称分为四级助教 xff0c 讲师 xf
C - 瑞神打牌（不支持C++11；G++和C++编译器都试试！） POJ - 1786

题目牌局由四个人构成 xff0c 围成一圈我们称四个方向为北东南西对应的英文是North xff0c East xff0c South xff0c West 游戏一共由一副扑克 xff0c 也就是52张构成开始 xff0c 我
Linux安装CUDA GCC版本不兼容

环境KALI 我估计Ubuntu也是一样的当前NVIDIA驱动版本 455 23 05 GCC版本 xff1a Debian 10 2 0 15 老铁们一定是这样操作的 xff1a span class token function su
LINUX设置临时路径

有时候需要设置下临时路径以方便使用 xff0c 在逛github FCOS配置的时候看到了这种使用方式 xff0c 觉得蛮有用的 xff0c 分享给大家 xff1a span class token function export span
CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below m

UPDATE 2023 01 11 我觉得评论区的方法比我的方法更加简单 xff0c 建议诸位老铁先看评论区 xff1a 好兄弟们看看是不是这个错 xff1a RuntimeError span class token punctuatio

CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below m

CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below m 的相关文章

随机推荐

热门标签