yolo算法的坐标输出代表什么？

2024-02-27

我的问题与这个主题类似。当我开始思考 yolo 算法的输出时，我正在观看 Andrew Ng 的关于边界框预测的讲座。让我们考虑这个例子，我们使用 19x19 网格和只有一个具有 2 个类的感受野，所以我们的输出将是 => 19x19x1x5。最后一个维度（大小为 5 的数组）表示以下内容：

1) The class (0 or 1)  
2) X-coordinate  
3) Y-coordinate  
4) height of the bounding box  
5) Width of the bounding box

我不明白 X,Y 坐标是否代表相对于整个图像大小的边界框或仅代表感受野（滤波器）。在视频中，边界框被表示为感受野的一部分，但逻辑上感受野比边界框小得多，而且人们可能会修改过滤器的大小，因此相对于过滤器定位边界框是没有意义的。

那么，图像边界框的坐标基本上代表什么？

From 了解 YOLO https://hackernoon.com/understanding-yolo-f5a74bbc7967发帖@黑客中午：

每个网格单元预测 B 边界框以及 C 类概率。边界框预测有 5 个组成部分：（x、y、w、 h，信心）. The (x, y)坐标表示中心框，相对于网格单元位置（请记住，如果中心盒子的does not落在网格单元内，而不是该单元格对此负责）。这些坐标被标准化为介于 0 和 1。(w, h)盒子尺寸也标准化为 [0, 1]，相对于图像大小。让我们看一个例子：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

yolo算法的坐标输出代表什么？的相关文章

深度学习——一些关于caffe的幼稚问题

我试图了解 caffe 的基础知识特别是与 python 一起使用我的理解是模型定义比如给定的神经网络架构必须包含在 prototxt file 当您使用数据训练模型时 prototxt 您将权重模型参数保存到 caffemode
在Python中表示语料库句子的一种热门编码

我是 Python 和 Scikit learn 库的初学者我目前需要从事一个 NLP 项目该项目首先需要通过 One Hot Encoding 来表示一个大型语料库我已经阅读了 Scikit learn 关于 preprocessi
音乐分析软件[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案问候我可能已经想到了这一点但有人知道 Last fm 之前是否使用某种形式的开源项目对音乐进行分析
为什么 scikit learn 的平均精度分数返回 nan？

我的 Keras 模型旨在接收两个输入时间序列将它们连接起来通过 LSTM 提供它们并在下一个时间步骤中进行多标签预测有 50 个训练样本每个样本有 24 个时间步每个样本有 5625 个标签有 12 个验证样本每个样本有
Spark 和 Ipython 中将非数字特征编码为数字的问题

我正在做一些我必须做出预测的事情numeric数据每月员工支出使用non numeric特征我在用Spark MLlibs Random Forests algorthim 我有我的features数据在一个dataframe看起来像
如何使用DecisionTreeClassifier平衡分类？

我有一个数据集其中类别不平衡课程是0 1 or 2 如何计算每个类别的预测误差然后重新平衡weights相应地在 scikit learn 中如果您想完全平衡将每个类别视为同等重要您可以简单地通过class weight bala
根据caffe中的“badness”缩放损失值

我想根据训练期间当前预测与正确标签的接近远近来缩放每个图像的损失值例如如果正确的标签是猫而网络认为它是狗那么惩罚损失应该小于网络认为它是汽车的情况我正在做的方式如下 1 我定义了标签之间距离的矩阵 2 将该矩
conv1D 中形状的尺寸

我尝试过构建一个只有一层的 CNN 但遇到了一些问题事实上编译器告诉我 ValueError 检查模型输入时出错预期的 conv1d 1 input 具有 3 个维度但得到形状为 569 30 的数组这是代码 import num
检测植物图片中的所有分支

我想知道有什么可以检测下图中的所有绿色树枝目前我开始应用 Frangi 过滤器 options struct FrangiScaleRange 5 5 FrangiScaleRatio 1 FrangiBetaOne 1 FrangiBe
提高SVM分类器准确率的技术

我正在尝试使用 UCI 数据集构建一个分类器来预测乳腺癌我正在使用支持向量机尽管我尽最大努力提高分类器的准确性但仍无法超过 97 062 我尝试过以下方法 1 Finding the most optimal C and gamma
朴素贝叶斯分类器仅基于先验概率做出决策

我试图根据推文的情绪将推文分为三类买入持有卖出我正在使用 R 和包 e1071 我有两个数据框一个训练集和一组需要预测情绪的新推文训练集数据框 text sentiment this stock is a good buy Bu
PyTorch 中的后向函数

我对 pytorch 的后向功能有一些疑问我认为我没有得到正确的输出 import numpy as np import torch from torch autograd import Variable a Variable torch
在具有不平衡数据的管道中进行交叉验证的正确方法

对于给定的不平衡数据我创建了一种不同的标准化管道和一种热编码 numeric transformer Pipeline steps scaler StandardScaler categorical transformer Pipelin
对象检测 ARKit 与 CoreML

我正在建设ARKitiPhone 的应用程序我需要检测特定的香水瓶并根据检测到的内容显示内容我使用来自developer apple com的演示应用程序来扫描现实世界的对象并导出 arobject我可以在资产中使用的文件它工作正常
如何在 Detectron2 中计算并集交集？

我正在使用 Detectron2 进行对象检测我已经注册了 pascalvoc 数据集并训练了一个检测模型如何计算测试数据集的平均 IOU 我知道 detector2 有一个用于计算 IOU 的预定义函数即 detectorron2
正确使用 fft2 和 fftshift 进行着色形状

我正在尝试从 Trucco Verri 文本 3d 计算机视觉入门技术中看到的着色算法重新创建经典形状但我很难理解 matlab 中的 fft 函数本质上我需要使用可积性约束来获取图像的深度 Z 我不确定在这种情况下何时使用 fft
如何从图像中识别车辆牌照/车牌（ANPR）？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个网站允许用户上传汽车图像我想放置一个隐私过滤器来检测车辆上的车牌并对其进行模糊处理模糊不是问题但是是否有库或组件首选
opencv - 在图像中绘制轮廓

我正在尝试在图像周围绘制轮廓我可以看到找到了轮廓但无法绘制轮廓轮廓的颜色似乎是两种黑色和白色颜色中的一种 import cv2 import numpy as np import matplotlib pyplot as plt
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
从数据框创建稀疏矩阵

我正在做一项作业尝试为 Netflix 奖项数据构建协作过滤模型我使用的数据位于 CSV 文件中我可以轻松地将其导入到数据框中现在我需要做的是创建一个稀疏矩阵其中用户作为行电影作为列每个单元格都由相应的评级值填充当我尝试绘制

随机推荐

如何在.NET 4.5 Core中计算HMAC-SHA1身份验证代码

我目前面临一个大问题环境 NET 4 5 Core 我们需要使用 HMAC SHA1 算法通过密钥来保护消息问题是命名空间的 HMACSHA1 类System Security Cryptography并且命名空间本身并不存在于 NET
当涉及高度动画的用户界面时，openGL ES 是否比 Core Animation 和 UIKit 具有更好的性能？

目前我有一个用户界面它大量使用了核心动画我想知道是否值得再花两个月的时间来学习openGL ES 这真的能提高 2D 表面的绘图性能吗我没有 3D 对象而是高度动画的 2D 对象有时会出现 3D 扭曲大量旋转和缩放特别是我
C# Azure AD Graph 获取超过 20 人的组的所有成员

我正在尝试从 Azure AD 获取特定组中的所有用户目前有480名用户当我获取它们时我只得到 20 我认为这是默认设置 var users await gsc Groups GROUP ID Request Expand membe
我是否仍然需要将 data-ng 与 AngularJS 一起使用，或者我可以删除 data- 吗？

在我的应用程序中 data ng 随处可见有人可以告诉我为什么需要数据吗我读过一些有关 HTML5 验证的内容但是如果我不关心它是否经过完全验证并且如果我使用 IE8 及更高版本的浏览器那么我是否仍然需要使用 data data
无法从 fetch PUT 访问 Express 服务器的正文数据

我对 Web 开发相当陌生我正在尝试将一些 JSON 数据发送到运行 Express 的 Node js 服务器但我收到此错误加载失败http 本地主机 8888 http localhost 8888 方法 PUT 不被允许预检响
可以使用初始或终端 malloc 缓冲区吗？

假设我做了如下事情 size t length 1000 char p malloc length 然后我想循环遍历元素所以最基本的是 for size t i 0 i lt length i p i or p length 1 i 但也
我可以在 JpaRepository 的 saveAll 中混合更新和插入吗

我使用 Spring Boot Spring Data JPA 和 Hibernate 作为持久性提供程序我已经延长了我的Repository与接口JPARepository 我有一个表的实体 Bean 列表其中一些已经存在一些则不存
在 Datomic 中使用事件时间而不是事务时间？

背景我使用 Datomic 来存储其他系统生成的事件的投影在这种情况下投影可以被视为 Datomic 中的实体这些事件有一个与之关联的时间戳用于说明事件的创建时间例如这显然与 Datomic 在投影中存储新属性基于事件时分
如何在R中将for循环输出保存为data.frame？

我想知道如何保存 a 的输出for loop as data frame 假设使用mtcars数据集我有以下内容for loop script for i in seq len nrow mtcars if i lt 30 next pri
jquery - 禁用父元素上的单击功能

我有这样的结构 table tr td td td td tr table
在 Java 中，对泛型参数类型的错误转换不会引发 ClassCastException

所以我有一个相当深奥的问题我正在尝试创建一个有点通用但类型化的属性收集系统它依赖于一个似乎是错误的核心假设代码说明了这个问题 import java lang Integer public class Test private st
java套接字全双工

是否可以让服务器和客户端拥有 1 个套接字连接并同时双向发送数据我的意思是服务器和客户端同时读写每个进程中有2个线程编辑我需要真正的双向通信而不是请求响应类型的通信客户端和服务器必须能够同时写入编辑2 天哪有用愚蠢的
需要使用 gae python 装饰器登录。传递参数？

我正在尝试使用 python gae 制作所需的登录装饰器 import utils def login required func def check login self args kw user cookie self request
连接“qt_sql_default_connection”仍在使用中，所有查询将停止工作

我已经为打开和关闭连接创建了单独的函数但它不允许我在新表单上添加新记录这是登录头文件 public QSqlDatabase mydb void connClose QString connection connection mydb
使用自动布局缩放 UIImageView 的 UIScrollView

考虑一个UIScrollView有一个子视图子视图是一个UIImageView具有以下尺寸限制它的高度必须等于UIScrollView 它的宽度必须是与图像的高度成比例缩放的图像的宽度UIImageView 预计宽度UIImageVie
地图控制器中的 ui-gmap-marker 的标记单击事件未触发

我有一个带有 Google 地图控制器的应用程序当我在手机上运行点击事件时它不会触发但是当我在波纹模拟器上测试它时会触发单击事件下面是地图页面和对应的Controller
如何为 Arm Cortex M4 交叉编译 GSL？

我正在使用带有arm cortex m4的STM32 MCU 并且想要使用gsl 2 7 1 但是我已经尝试过例如命令 configure prefix home user name gsl arm target arm none eab
jquery 砖石图像重叠，直到页面调整大小完成

我发现这个模板演示了我遇到的问题jquery 砌体 http masonry desandro com 和图像布局看看这个 Twitter 引导模板page http wbpreview com previews WB0F35928 ga
计算数据帧列中事件组合发生的次数

我有一个数据框我想计算两列中每个事件组合发生的次数以任何顺序例如说我有 df lt data frame x c a a b c c c y c b c c a a b So x y a b a c b c c a c a c a c
yolo算法的坐标输出代表什么？

我的问题与这个主题类似当我开始思考 yolo 算法的输出时我正在观看 Andrew Ng 的关于边界框预测的讲座让我们考虑这个例子我们使用 19x19 网格和只有一个具有 2 个类的感受野所以我们的输出将是 gt 19x19x1x

yolo算法的坐标输出代表什么？

yolo算法的坐标输出代表什么？ 的相关文章

随机推荐

热门标签

yolo算法的坐标输出代表什么？的相关文章