目标检测pytorch版yolov3五——解码过程和可视化以及predict预测过程

2023-11-03

本篇博客是我学习某位up在b站讲的pytorch版的yolov3后写的，
那位up主的b站的传送门：
https://www.bilibili.com/video/BV1A7411976Z
他的博客的传送门：
https://blog.csdn.net/weixin_44791964/article/details/105310627
他的源码的传送门：
https://github.com/bubbliiiing/yolo3-pytorch
侵删

在这里插入图片描述

解码过程和可视化其实就是画先验框和调整先验框获得最后的预测框。
话不多说，直接上代码（代码都是以13x13的特征层为例来进行解析的）
下面代码是url.py文件里面的代码

#调整先验框的过程就是解码
#decodebox这个类就是对先验框进行调整，每次只能对一个特征层进行解码，
class DecodeBox(nn.Module):
    def __init__(self, anchors, num_classes, img_size):
        super(DecodeBox, self).__init__()
        self.anchors = anchors
        self.num_anchors = len(anchors)
        self.num_classes = num_classes
        self.bbox_attrs = 5 + num_classes
        self.img_size = img_size

    def forward(self, input):
        """
        拿到预测结果以后，就放进这个forward函数，
        这里的input的shape是batchsize, 3x(1+4+num_classes), 13, 13
        3x(1+4+num_classes)分析：
        3是代表3个先验框，1代表先验框内部是否包含有物体，4表示先验框的调整参数，num_classes表示先验框内部物体的种类
        """
        #判断一共有多少张图片
        batch_size = input.size(0)
        #然后得到特征层的宽和高，根据我们的例子，这里的宽和高都是13和13
        input_height = input.size(2)
        input_width = input.size(3)

        # 计算步长，这里的步长其实就是输入进来的图片的大小除以我们输入进来的特征层，这里步长的别名也叫感受野
        """
        步长也就是每一个特征点对应原图上有多少个像素
        如我们的例子，我们将原图划分为13x13的网格，一张原图有412的像素，那么每一个特征点就对应412/13=32个像素点。（这里除以13是因为我们需要分开计算宽和高）
        那么就可以分别计算出高和宽的步长都是32
        """
        stride_h = self.img_size[1] / input_height
        stride_w = self.img_size[0] / input_width
        # 归一到特征层上
        """
        这里就是对先验框的样式进行调整
        """
        scaled_anchors = [(anchor_width / stride_w, anchor_height / stride_h) for anchor_width, anchor_height in self.anchors]

        # 对预测结果进行resize，进行通道转换和reshape
        """
        batchsize, 3x(5+num_classes), 13, 13->batchsize, 3, 13, 13, (5+num_classes)
        下面self.num_anchors表示的是3，也就是先验框的个数
        self.bbox_attrs也就是5+num_classes
        """
        prediction = input.view(batch_size, self.num_anchors,
                                self.bbox_attrs, input_height, input_width).permute(0, 1, 3, 4, 2).contiguous()

        #下面步骤就是获得先验框的调整参数

        # 获得先验框的中心位置的调整参数，先验框的中心其实就是我们划分网格的时候网格与网格之间的交点
        #中心位置就是先验框和预测框中心的偏移距离
        #在这里加上一个sigmoid可以将我们的值固定在0和1之间，这样我们的先验框的中心就只会往右下角的网格偏移了
        x = torch.sigmoid(prediction[..., 0])  
        y = torch.sigmoid(prediction[..., 1])
        # 获得先验框的宽高调整参数，就是先验框的大小调整，调整到预测框的大小
        w = prediction[..., 2]  # Width
        h = prediction[..., 3]  # Height

        # 获得置信度，是否有物体
        conf = torch.sigmoid(prediction[..., 4])
        # 种类置信度
        pred_cls = torch.sigmoid(prediction[..., 5:])  # Cls pred.

        FloatTensor = torch.cuda.FloatTensor if x.is_cuda else torch.FloatTensor
        LongTensor = torch.cuda.LongTensor if x.is_cuda else torch.LongTensor

        # 下面就是生成网格，生成先验框
        #首先是生成先验框的中心，也就是每个网格相交的网格点，它的shape是:batch_size,3,13,13(也就是13x13的网格，每个网格有三个先验框)
        grid_x = torch.linspace(0, input_width - 1, input_width).repeat(input_width, 1).repeat(
            batch_size * self.num_anchors, 1, 1).view(x.shape).type(FloatTensor)
        grid_y = torch.linspace(0, input_height - 1, input_height).repeat(input_height, 1).t().repeat(
            batch_size * self.num_anchors, 1, 1).view(y.shape).type(FloatTensor)

        # 生成先验框的宽高
        anchor_w = FloatTensor(scaled_anchors).index_select(1, LongTensor([0]))
        anchor_h = FloatTensor(scaled_anchors).index_select(1, LongTensor([1]))
        anchor_w = anchor_w.repeat(batch_size, 1).repeat(1, 1, input_height * input_width).view(w.shape)
        anchor_h = anchor_h.repeat(batch_size, 1).repeat(1, 1, input_height * input_width).view(h.shape)

        # 计算调整后的先验框中心与宽高
        pred_boxes = FloatTensor(prediction[..., :4].shape)
        #对先验框的中心进行调整
        pred_boxes[..., 0] = x.data + grid_x
        pred_boxes[..., 1] = y.data + grid_y
        #对先验框的宽高进行调整
        pred_boxes[..., 2] = torch.exp(w.data) * anchor_w
        pred_boxes[..., 3] = torch.exp(h.data) * anchor_h

        # 用于将输出调整为相对于416x416的大小
        _scale = torch.Tensor([stride_w, stride_h] * 2).type(FloatTensor)
        output = torch.cat((pred_boxes.view(batch_size, -1, 4) * _scale,
                            conf.view(batch_size, -1, 1), pred_cls.view(batch_size, -1, self.num_classes)), -1)

下面就是predict过程的代码了
下面代码是predict.py 文件的代码

#首先创建了yolo这个类，这个类就是我们在yolo.py文件里面创建的类
yolo = YOLO()

while True:
    img = input('Input image filename:')
    try:
        image = Image.open(img)
    except:
        print('Open Error! Try again!')
        continue
    else:
    	#detect_image对我们输入进来的图片进行一个预测，然后把预测框给画出来，
        r_image = yolo.detect_image(image)
        r_image.show()

下面的代码文件是出现在yolo.py 文件

def detect_image(self, image):
        #首先获得了输入进来的图片的高和宽是多少
        image_shape = np.array(np.shape(image)[0:2])
        #添加灰条
        crop_img = np.array(letterbox_image(image, (self.model_image_size[0],self.model_image_size[1])))
        photo = np.array(crop_img,dtype = np.float32)
        #对图片进行归一化
        photo /= 255.0
        photo = np.transpose(photo, (2, 0, 1))
        photo = photo.astype(np.float32)
        images = []
        images.append(photo)

        images = np.asarray(images)
        images = torch.from_numpy(images)
        if self.cuda:
            images = images.cuda()
        
        with torch.no_grad():
            outputs = self.net(images)
            output_list = []
            for i in range(3):
                output_list.append(self.yolo_decodes[i](outputs[i]))
            #这里的cat就是对我们三个预测结果进行一次堆叠
            output = torch.cat(output_list, 1)
            batch_detections = non_max_suppression(output, self.config["yolo"]["classes"],
                                                    conf_thres=self.confidence,
                                                    nms_thres=0.3)
        try :
            batch_detections = batch_detections[0].cpu().numpy()
        except:
            return image
        top_index = batch_detections[:,4]*batch_detections[:,5] > self.confidence
        top_conf = batch_detections[top_index,4]*batch_detections[top_index,5]
        top_label = np.array(batch_detections[top_index,-1],np.int32)
        top_bboxes = np.array(batch_detections[top_index,:4])
        top_xmin, top_ymin, top_xmax, top_ymax = np.expand_dims(top_bboxes[:,0],-1),np.expand_dims(top_bboxes[:,1],-1),np.expand_dims(top_bboxes[:,2],-1),np.expand_dims(top_bboxes[:,3],-1)

        # 去掉灰条
        boxes = yolo_correct_boxes(top_ymin,top_xmin,top_ymax,top_xmax,np.array([self.model_image_size[0],self.model_image_size[1]]),image_shape)

        font = ImageFont.truetype(font='model_data/simhei.ttf',size=np.floor(3e-2 * np.shape(image)[1] + 0.5).astype('int32'))

        thickness = (np.shape(image)[0] + np.shape(image)[1]) // self.model_image_size[0]

        for i, c in enumerate(top_label):
            predicted_class = self.class_names[c]
            score = top_conf[i]

            top, left, bottom, right = boxes[i]
            top = top - 5
            left = left - 5
            bottom = bottom + 5
            right = right + 5

            top = max(0, np.floor(top + 0.5).astype('int32'))
            left = max(0, np.floor(left + 0.5).astype('int32'))
            bottom = min(np.shape(image)[0], np.floor(bottom + 0.5).astype('int32'))
            right = min(np.shape(image)[1], np.floor(right + 0.5).astype('int32'))

            # 画框框
            label = '{} {:.2f}'.format(predicted_class, score)
            draw = ImageDraw.Draw(image)
            label_size = draw.textsize(label, font)
            label = label.encode('utf-8')
            print(label)
            
            if top - label_size[1] >= 0:
                text_origin = np.array([left, top - label_size[1]])
            else:
                text_origin = np.array([left, top + 1])

            for i in range(thickness):
                draw.rectangle(
                    [left + i, top + i, right - i, bottom - i],
                    outline=self.colors[self.class_names.index(predicted_class)])
            draw.rectangle(
                [tuple(text_origin), tuple(text_origin + label_size)],
                fill=self.colors[self.class_names.index(predicted_class)])
            draw.text(text_origin, str(label,'UTF-8'), fill=(0, 0, 0), font=font)
            del draw
        return image

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

目标检测

神经网络

深度学习

Pytorch

目标检测pytorch版yolov3五——解码过程和可视化以及predict预测过程的相关文章

在 PyTorch 中原生测量多类分类的 F1 分数

我正在尝试在 PyTorch 中本地实现宏 F1 分数 F measure 而不是使用已经广泛使用的sklearn metrics f1 score https scikit learn org stable modules generat
一次热编码期间出现 RunTimeError

我有一个数据集其中类值以 1 步从 2 到 2 i e 2 1 0 1 2 其中 9 标识未标记的数据使用一种热编码 self one hot encode labels 我收到以下错误 RuntimeError index 1 is
从打包序列中获取每个序列的最后一项

我试图通过 GRU 放置打包和填充的序列并检索每个序列最后一项的输出当然我的意思不是 1项目但实际上是最后一个未填充的项目我们预先知道序列的长度因此应该很容易为每个序列提取length 1 item 我尝试了以下方法 impor
Pytorch CUDA 错误：没有内核映像可用于在带有 cuda 11.1 的 RTX 3090 设备上执行

如果我运行以下命令 import torch import sys print A sys version print B torch version print C torch cuda is available print D torc
pytorch 的 IDE 自动完成

我正在使用 Visual Studio 代码最近尝试了风筝这两者似乎都没有 pytorch 的自动完成功能这些工具可以吗如果没有有人可以推荐一个可以的编辑器吗谢谢你使用Pycharmhttps www jetbrains co
如何从已安装的云端硬盘文件夹中永久删除？

我编写了一个脚本在每次迭代后将我的模型和训练示例上传到 Google Drive 以防发生崩溃或任何阻止笔记本运行的情况如下所示 drive path drive My Drive Colab Notebooks models if p
如何在 PyTorch 中对子集使用不同的数据增强

如何针对不同的情况使用不同的数据增强转换 Subset在 PyTorch 中吗例如 train test torch utils data random split dataset 80000 2000 train and test将具
在Pytorch中计算欧几里得范数..理解和实现上的麻烦

我见过另一个 StackOverflow 线程讨论计算欧几里德范数的各种实现但我很难理解特定实现的原因如何工作该代码可以在 MMD 指标的实现中找到 https github com josipd torch two sample b
如何计算cifar10数据的平均值和标准差

Pytorch 使用以下值作为 cifar10 数据的平均值和标准差变换 Normalize 0 5 0 5 0 5 0 5 0 5 0 5 我需要理解计算背后的概念因为这些数据是 3 通道图像我不明白什么是相加的什么是除什么的等等
样本（）和r样本（）有什么区别？

当我从 PyTorch 中的发行版中采样时两者sample and rsample似乎给出了类似的结果 import torch seaborn as sns x torch distributions Normal torch tens
TensorFlow 相当于 PyTorch 的 Transforms.Normalize()

我正在尝试推断最初在 PyTorch 中构建的 TFLite 模型我一直在遵循PyTorch 实现 https github com leoxiaobin deep high resolution net pytorch blob 1ee
对 FastAI 中的数据应用图像增强转换时出错

我正在尝试复制这个 Kaggle 笔记本https www kaggle com tanlikesmath diabetic retinopathy with resnet50 oversampling https www kaggle c
在requirements.txt中包含.whl安装

如何将其包含在requirements txt 文件中对于Linux pip install http download pytorch org whl cu75 torch 0 1 12 post2 cp27 none linux x8
Google Colab 使用 Transformers 和 PyTorch 微调 BERT Base Case 时出现间歇性“RuntimeError: CUDA out of memory”错误

我正在运行以下代码来微调 Google Colab 中的 BERT Base Cased 模型有时代码第一次运行良好没有错误其他时候相同的代码使用相同的数据会导致 CUDA 内存不足错误以前重新启动运行时或退出笔记本返回笔
PyTorch DataLoader 对并行运行的批次使用相同的随机种子

有一个bug https tanelp github io posts a bug that plagues thousands of open source ml projects 在 PyTorch Numpy 中当并行加载批次时Da
尝试将 cuda 与 pytorch 一起使用时出现运行时错误 999

我为我的 Geforce 2080 ti 安装了 Cuda 10 1 和最新的 Nvidia 驱动程序我尝试运行一个基本脚本来测试 pytorch 是否正常工作但出现以下错误 RuntimeError cuda runtime erro
当前向包含多个自动分级节点时，PyTorch 关于使用非完整后向挂钩的警告

最近升级后当运行 PyTorch 循环时我现在收到警告当前向包含多个自动分级节点时使用非完整后向钩子训练仍在运行并完成但我不确定应该将其放置在哪里register full backward hook功能我尝试将它添加到神经网络
PyTorch 如何计算二阶雅可比行列式？

我有一个正在计算向量的神经网络u 我想计算关于输入的一阶和二阶雅可比矩阵x 单个元素有人知道如何在 PyTorch 中做到这一点吗下面是我项目中的代码片段 import torch import torch nn as nn class
设置 torch.gather(...) 调用的结果

我有一个形状为 n x m 的 2D pytorch 张量我想使用索引列表来索引第二个维度可以使用 torch gather 完成然后然后还设置新值到索引的结果 Example data torch tensor 0 1 2 3 4
Pytorch LSTM：计算交叉熵损失的目标维度

我一直在尝试在 Pytorch 中使用 LSTM LSTM 后跟自定义模型中的线性层但在计算损失时出现以下错误 Assertion cur target gt 0 cur target lt n classes failed 我用以下函数

随机推荐

ipynb文件_vscode 里建立ipynb文件

最近在学习并熟悉vscode的操作使用方法记录一下 Jupyter介绍 Jupyter Notebook 此前被称为 IPython notebook 是一个交互式笔记本支持运行 40 多种编程语言对于希望编写漂亮的交互式文档的人来说
03.1 使用普通表单向Spring控制器提交数据

03 1 使用普通表单向Spring控制器提交数据场景由前台jsp网页表单向数据库中添加一条信息前台jsp
IDEA的import类和pom文件头被标红，但可以正常编译打包（四种解决方案）

IDEA的import类和pom文件头被标红但可以正常编译打包四种解决方案问题背景方案一方案二方案三方案四心得 Lyric 雨点从两旁划过问题背景昨晚回家没有关电脑也没关IDEA 今早看IDEA的时候居然莫名其妙出现
写1清0与写0清零：单片机中断服务函数为什么要用写1清零中断标志位？

前记第一次使用risc的单片机照着datasheet和demo边研究边写因为之前使用51单片机基本都是照着demo CTRL C V 然后自己改改逻辑这样一个项目也就差不多了很多原理其实没搞太清楚借着这个机会好好补一补原理搞
Maven安装教程

一下载安装包Maven Download Apache Mavenhttps maven apache org download cgi 二配置maven环境 1 将压缩包放到自己想要存放的目录 2 复制Maven的根路径注意不是bi
Raki的读paper小记：RWKV: Reinventing RNNs for the Transformer Era

Abstract Introduction Related Work 研究任务基础模型架构已有方法和相关工作 RNN CNN Transformer 稀疏注意力 Beltagy等人 2020年 Kitaev等人 2020年 Guo等人
GLES3.0中文API-glGetProgramResourceName

名称 glGetProgramResourceName 查询程序中已索引资源的名称 C 规范 void glGetProgramResourceName GLuint program GLenum programInterface GLui
接口api 之Swagger 一次实战探索

今天我们来说说什么是Swagger 就是把相关的信息存储在它定义的描述文件里面 yml或json格式再通过维护这个描述文件可以去更新接口文档以及生成各端代码而Springfox swagger 则可以通过扫描代码去生成这个描述文件好
问题 E: [蓝桥杯2016初赛]交换瓶子

题目描述有N个瓶子编号 1 N 放在架子上比如有5个瓶子 2 1 3 5 4 要求每次拿起2个瓶子交换它们的位置经过若干次后使得瓶子的序号为 1 2 3 4 5 对于这么简单的情况显然至少需要交换2次就可以复位如果瓶子更多
STM32 基本定时器实验

1 基本定时器简介时钟源时钟挂载在APB1总线下中间有一个倍频器 sys stm32 clock init时钟已经设置APB1总线时钟频率为36M 预分频器分频系数为2 所以挂载在APB1总线的定时器时钟频率为72Mhz 图中对应的时
node mysql 连接时区_Nodejs Date 保存到mysql中时区问题，处理方法

nodejs中mysql用法 1 建立数据库连接 createConnection Object 方法该方法接受一个对象作为参数该对象有四个常用的属性host user password database 与php中链接数据库的参数相同
ArrayLIst、HashMap

底层维护了一个Objec的数组创建对象时初始大小是0 第一次新增元素时扩容为10 再次扩容为1 5倍扩容的时机是内部数组满了之后再次add才会扩容非线程安全线程安全的Vector HashMap jdk7以前为数组链表搜索的
数据结构知识点汇总

1 用链表表示线性表的优点是便于插入和删除操作 2 单链表中增加头结点的目的是方便运算的实现 3 栈和队列的共同特点是只允许在端点处插入和删除元素 4 栈通常采用的两种存储结构是线性存储结构和链表存储结构 5 队列具有先进先出
Lamport 逻辑时钟

分布式系统中按是否存在节点交互可分为三类事件一类发生于节点内部二是发送事件三是接收事件注意以下文章中提及的时间戳如无特别说明都指的是Lamport 逻辑时钟的时间戳不是物理时钟的时间戳如果a在进程Pi中 b在进程Pj中 Ci
今日分享积累的5个AI绘画网站，好用且免费

AI绘画即基于人工智能的绘画技术让设计师能够以全新的方式创作出惊人的艺术作品而随着AI绘画技术的发展市面上也多了很多能免费使用的AI绘画网站可以为我们提供更多的绘画灵感和创作可能性接下来我将为大家推荐5个能免费使用的AI绘画网站
ngrok搭建服务器(超级详细)

前言我一直都在usr local文件下操作有不懂的同学给我留言我没有修改源码只是测试能否生成服务端文件有需要的同学可以修改源码使用 ip 做域名时随机生成的子域名导致地址错误解决办法就是改源码去掉随机生成在ngrok目录下
WAIC2023：图像内容安全黑科技助力可信AI发展

目录 0 写在前面 1 AI图像篡改检测 2 生成式图像鉴别 2 1 主干特征提取通道 2 2 注意力模块 2 3 纹理增强模块 3 OCR对抗攻击 4 助力可信AI向善发展总结 0 写在前面 2023世界人工智能大会 WAIC 已圆满结
python insert插入新一列

mydata insert 1 date data 日期 mydata 原有数据 1 插入第几列 data 插入列名 data 日期插入列内容原有数据插入一列 mydata insert 1 date data 日期 mydata 原有
快速构建Kubesphere 3.0并设置Kubesphere 多集群联邦

这里我们Host选择使用单节点All in One安装模式可以零配置快速部署 KubeSphere和Kubernetes 我们安装联邦集群需要有一台节点进行管理 Member需要在Kubernetes中安装Kubesphere当作Memb
目标检测pytorch版yolov3五——解码过程和可视化以及predict预测过程

本篇博客是我学习某位up在b站讲的pytorch版的yolov3后写的那位up主的b站的传送门 https www bilibili com video BV1A7411976Z 他的博客的传送门 https blog csdn net

目标检测pytorch版yolov3五——解码过程和可视化以及predict预测过程

目标检测pytorch版yolov3五——解码过程和可视化以及predict预测过程 的相关文章

随机推荐

热门标签

目标检测pytorch版yolov3五——解码过程和可视化以及predict预测过程的相关文章