执行多尺度训练（yolov2）

2024-04-17

我想知道多尺度训练如何YOLOv2 https://arxiv.org/pdf/1612.08242.pdf works.

论文中指出：

原始YOLO使用的输入分辨率为448×448。通过添加锚框，我们将分辨率更改为416×416。然而，由于我们的模型仅使用卷积层和池化层，因此可以动态调整大小。我们希望 YOLOv2 能够在不同大小的图像上运行，因此我们将其训练到模型中。我们不是固定输入图像的大小，而是每隔几次迭代就改变网络。每 10 个批次，我们的网络都会随机选择一个新的图像尺寸。 “由于我们的模型按 32 倍下采样，因此我们从以下 32 的倍数中提取：{320, 352, ..., 608}。因此，最小的选项是 320 × 320，最大的选项是 608 × 608。我们调整大小将网络提升到该维度并继续训练。”

不明白网络如何仅包含卷积层和池化层允许输入不同的分辨率。根据我构建神经网络的经验，如果将输入的分辨率改变为不同的尺度，这个网络的参数数量就会改变，也就是这个网络的结构会改变。

那么，YOLOv2 如何改变这一点在飞行中?

我读了yolov2的配置文件，但我得到的只是一个random=1陈述...

如果只有卷积层，则权重的数量不会随着层的 2D 部分的大小而变化（但如果您调整通道数的大小，权重的数量也会改变）。

例如（想象的网络），如果你有 224x224x3 输入图像和 3x3x64 卷积层，你将有 64 个不同的 3*3*3 卷积滤波器内核 = 1728 个权重。这个值根本不依赖于图像的大小，因为内核独立地应用于图像的每个位置，这是卷积和卷积层最重要的事情，也是 CNN 可以走得这么深的原因，并且为什么在更快的 R-CNN 中，您可以从特征图中裁剪出区域。

如果有任何完全连接的层或其他东西，它就不会以这种方式工作，因为在那里，更大的 2D 层尺寸会导致更多的连接和更多的权重。

在 yolo v2 中，有一件事可能看起来仍然不合适。例如，如果将每个维度的图像大小加倍，则最终的 1x1xN 过滤器之前，每个维度的特征数量将增加 2 倍，就像原始网络大小的网格为 7x7 一样，调整大小的网络可能有 14x14。但这样你就会得到 14x14 * B*(5+C) 回归结果，就很好了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

执行多尺度训练（yolov2）的相关文章

查找具有不同强度/亮度的相似图像

假设我有如下图像我可以选择什么来比较两个图像之间的相似度显然它们是相同的图像只是亮度不同我找不到任何可行的方法目前我最好的选择是训练 cnn 或自动编码器并比较输出的特征向量但这似乎有点矫枉过正任何提示将不胜感激相当强大的工
为什么我们应该在 Keras 中对深度学习数据进行标准化？

我正在 Keras 中测试一些网络架构以对 MNIST 数据集进行分类我已经实现了一个类似于 LeNet 的方法我看到在网上找到的例子中有一个数据标准化的步骤例如 X train 255 我在没有这种标准化的情况下进行了测试我发
Opencv 2.4.2 代码讲解-人脸识别

我参考OpenCV提供的文档制作了一个人脸识别程序可以识别多个人脸并且工作正常在文档中他们制作了省略号来突出显示脸部我不明白的是他们如何计算椭圆的中心他们的计算如下 for int i 0 i lt faces size i P
Weka - 探索者和实验者结果之间的差异

我只是想知道为什么正确分类的百分比与 Weka 的探索者和实验者方面不同我已检查以确保使用 10 交叉折叠验证以及所有其他参数有人有主意吗 Thanks 当我在 Weka 邮件列表上给马克霍尔 Mark Hall 发送电子邮件时我已
相机校准：如何正确进行

我正在尝试使用棋盘格通过众所周知的张氏方法进行校准然后进行捆绑调整该方法在 Matlab 和 OpenCV 中都可用有很多经验指南但从我个人的经验来看准确性是相当随机的它有时可能非常好但有时也可能非常糟糕实际上只需将棋盘放
在 opencv 中一次性将旋转和平移结合起来

我有一段用于旋转和平移图像的代码 Point2f pt 0 in rows double angle atan trans c trans b 180 M PI Mat r getRotationMatrix2D pt angle 1 0
缩小轴 1 的形状为空 [x,0]

我正在尝试训练 SVHN 街景门牌号码数据集用于张量流中的对象检测对数字进行一些基本的 OCR 到目前为止我已经成功地遵循了对象检测张量流指南中的宠物训练示例当我基于样本 fast rcnn resnet101 config 训练
如何使用 Keras ImageDataGenerator 预测单个图像？

我已经训练 CNN 对图像进行 3 类分类在训练模型时我使用 keras 的 ImageDataGenerator 类对图像应用预处理功能并重新缩放它现在我的网络在测试集上训练得非常准确但我不知道如何在单图像预测上应用预处理功能如
OpenCV 中的 Canny 可以同时处理灰度图像和彩色图像吗？

我有一些关于Canny 边缘检测器 in OpenCV 这是我尝试过的代码 def auto canny image sigma 0 33 v np median image lower int max 0 1 0 sigma v uppe
结果显示图像上有衬里

我正在使用 opencv 和 android ndk 下面是我的 jni 代码 void Vignete Mat img1 Mat img2 Mat out resize img1 img1 img2 size img1 convertTo
运行时错误：大小不匹配，m1：[4 x 3136]，m2：[64 x 5]位于c：\ a \ w \ 1 \ s \ tmp_conda_3.7_1

我使用 python 3 当我插入变换随机裁剪大小 224 时它会给出未匹配错误这是我的代码 https github com kajasumanie medical plant classification blob master i
使用 CNN 和 pytorch 计算每个类别的准确度

我可以使用此代码计算每个时期后的准确性但是我想最后计算每个班级的准确性我怎样才能做到这一点我有两个文件夹 train 和 val 每个文件夹有 7 个不同类别的 7 个文件夹 train 文件夹用于训练否则 val 文件夹用于测试
边缘检测和透明度

使用在一致背景下拍摄的服装图像我希望使图像中除服装之外的所有像素都透明解决这个问题的最佳方法是什么我研究了这个常见的算法和开源库opencv http opencv willowgarage com wiki 除了自己动手或使用 op
自适应阈值二值化的不良影响

I implemented some adaptive binarization methods they use a small window and at each pixel the threshold value is calcul
AttributeError：模块“keras.engine”没有属性“Layer”

当我试图运行时Parking Slot mask rcnn py文件我收到如下错误mrcnn model py文件我该如何解决 gt 2021 06 17 08 25 18 585897 W tensorflow stream execut
使用 SURF 在检测到的对象周围绘制矩形

我正在尝试从涉及冲浪检测器的以下代码中检测对象我不想绘制匹配项我想在检测到的对象周围绘制一个矩形但不知何故我无法获得正确的单应性请任何人指出在哪里我走错了 include
图像处理 - 使用 opencv 进行服装分割

我正在使用 opencv 进行服装特征识别第一步我需要通过从图像中移除脸部和手来分割 T 恤任何建议表示赞赏我建议采用以下方法 Use 阿德里安罗斯布鲁克的用于检测皮肤的皮肤检测算法谢谢罗莎格隆奇以获得他的评论在方差图上使用
如何在 Detectron2 中计算并集交集？

我正在使用 Detectron2 进行对象检测我已经注册了 pascalvoc 数据集并训练了一个检测模型如何计算测试数据集的平均 IOU 我知道 detector2 有一个用于计算 IOU 的预定义函数即 detectorron2
正确使用 fft2 和 fftshift 进行着色形状

我正在尝试从 Trucco Verri 文本 3d 计算机视觉入门技术中看到的着色算法重新创建经典形状但我很难理解 matlab 中的 fft 函数本质上我需要使用可积性约束来获取图像的深度 Z 我不确定在这种情况下何时使用 fft
ValueError：形状（无，1）和（无，2）不兼容

我正在训练面部表情愤怒与快乐模型最后一个密集输出层以前为 1 但当我预测图像时它的输出始终为 1 准确度为 64 所以我将其更改为 2 表示 2 个输出但现在我收到这个错误 Epoch 1 15 ValueError Traceb

随机推荐

ContentCachingResponseWrapper 生成空响应

我正在尝试实现过滤器来记录请求和响应Spring MVC应用我使用以下代码 Component public class LoggingFilter extends OncePerRequestFilter private static
如何在 Three.js 中从三角面获取多边形？

我在网上查了一下是否有人遇到同样的问题我正在使用 Three js 我有一个 3DObject 其中可能包含孔面是三角形的假设我想从上面看到它我的目标是获得一个代表顶面周长的多边形这对我来说意味着不再有三角面而只有 1 个多边形
在 PHP 中，如何判断 pg_query() 是否是返回数据的查询？

那么一次成功的mysqli query 如果没有数据则返回 true 并且返回一个mysqli result对象如果有数据即查询是SELECT SHOW DESCRIBE or EXPLAIN 但随着成功的pg query 无论是否有任何
如何将样式应用于列表中的相邻元素

我可以只使用 CSS 来完成这个场景吗我有一个任意长度的元素的无序列表这些元素排列成一个由四个元素组成的网格当用户将鼠标悬停在某个元素上时一些附加内容将在该元素下方下拉并将其下方的行向下推 Content is here
如何将 CSS 翻译添加到现有翻译中？

我使用 CSS 翻译将 DIV 元素放置在屏幕上这工作得很好除了当稍后位移相同的元素时原始位移被丢弃使用 javascript 设置 CSS 起始位置 div style transform translate 800px 400p
监控我的应用程序在 Android 中占用的内存

我正在尝试优化我的应用程序消耗的内存量当我的应用程序加载时按住 home 键然后选择任务管理器我可以看到该应用程序占用了 17MB 但该值不会刷新我如何实时跟踪该值 DDMS 有这个选项吗请具体说明我已经搜索了很多但没有找到提
如何使用 start 和 endAngle 渲染 svg 圆

我使用 start 和 endAngle 渲染了 svg 圆效果很好但是当我渲染完整的圆 startAngle为70 endAngle为70 时输出有很大的不同 0 90 180 270除外我为这段代码做错了什么 function
如何从 Kubernetes Pod 连接到私有 IP

我正在尝试从 Pod 内连接到私有 IP 从 Pod 对该 IP 执行 Ping 操作返回无法访问但是我可以从主机系统 ping 该 IP 将流量从 pod 路由到目标私有 IP 的最佳方式是什么 Pod 不允许直接连接到 kubern
AVAudioPlayer 在调试模式下抛出断点

每次我加载应用程序时它都会停止就像我在此行设置了断点一样 self audioPlayer AVAudioPlayer alloc initWithData dataPersister loadData self fileName er
如何从 Java 系统设置中获取代理设置

我正在寻找如何在 Windows 下使用 Java 获取系统代理信息的方法但我只找到了一种方法但这对我不起作用 public static void main String args throws Throwable System se
红宝石数组内部结构

ruby 数组内部是如何实现的主要是在 CRuby 中但欢迎任何其他信息它们是像 C 向量一样可增长的数组还是基于列表的移位取消移位以及通过索引访问元素的复杂性是多少它们是可增长的数组在最后增长 shift is O 1 un
hive中每行的百分比计算

我在配置单元中有一个具有以下架构的表差值 int 计数值 int 值为 5 2 30 1 90 1 100 1 现在我想找到每个 count value 与 count value 总和的百分比每行的值类似于 count value s
终止设备上的调试

我对设备上的调试有点困惑当我使用模拟器时在调试会话之后我只需关闭模拟器窗口但是在我的设备上调试时如何关闭会话只需断开 USB 电缆即可并且安装的 apk 由Eclipse安装应该手动删除您可以通过转到调试视角右键单击
当 readdir() 返回文件名时，stat() 错误“没有这样的文件或目录”

我无法识别 stat 引发的错误下面的程序读取目录中的所有文件并打印文件名 DIR dp struct dirent dirp struct stat sb if dp opendir argv 1 NULL perror can t o
WPF - MVVM - 组合框选定项

I have ViewModel 实施的INotifyPropertyChanged 在后台和类中Category它只有一个 type 属性string 我的 ComboBox SelectedItem 绑定到类别的实例当我更改实例的值时
如何更改导航视图中的分隔符颜色？

我正在尝试使用 NavigationView 来实现 NavigationDrawer 我通过在菜单中设置组 ID 添加了分隔符但是我看不到分隔符我想这是因为分隔符颜色与背景相同所以我想改变分隔符的颜色但我找不到办法改变它谁能帮我
如何迭代大型输入文件？

我正在尝试访问通过输入字段上传的文件内容的迭代器我可以通过 web sys 将 JS 文件传递到 Wasm 中但是我一生都无法弄清楚如何访问 Rust 中传递的文件的长度和名称之外的任何内容我想我可以将整个文件作为 ByteArra
Windows npm 中的 Glob 通配符

我试图让 npm 在脚本文件夹上构建 browserify 问题是我在 Windows 上执行folder js 似乎不起作用我尝试过全局安装 glob 但每当我运行构建命令时都会返回错误提示找不到模块 c www projec
如何从 Web 服务响应中读取 HTTP 响应标头？

如何从 C 中的 Web 服务响应中读取 HTTP 响应标头在深入研究 MSDN 之后我所需要做的就是覆盖GetWebResponse方法然后我可以访问响应头 public class MyWSProxy HttpWebClientP
执行多尺度训练（yolov2）

我想知道多尺度训练如何YOLOv2 https arxiv org pdf 1612 08242 pdf works 论文中指出原始YOLO使用的输入分辨率为448 448 通过添加锚框我们将分辨率更改为416 416 然而由于我们的

执行多尺度训练（yolov2）

执行多尺度训练（yolov2） 的相关文章

随机推荐

热门标签

执行多尺度训练（yolov2）的相关文章