经过一段时间的训练后，训练损失值正在增加，但模型检测物体的效果相当好

2023-11-30

我在训练 CNN 从我自己的数据集中检测对象时遇到了一个奇怪的问题。我正在使用迁移学习，并且在训练开始时，损失值正在下降（如预期）。但过了一段时间，它变得越来越高，我不知道为什么会发生这种情况。

与此同时，当我看着Images使用 Tensorboard 上的选项卡来检查 CNN 预测物体的效果，我可以看到它做得非常好，而且看起来并没有随着时间的推移而变得越来越糟。此外，精确率和召回率图表看起来不错，只有损失图表（尤其是分类损失）显示出随着时间的推移而增加的趋势。

以下是一些具体细节：

我有 10 种不同类别的徽标（例如 DHL、BMW、FedEx 等）
每班大约 600 张图像
我在 Ubuntu 18.04 上使用tensorflow-gpu

我尝试了多个预训练模型，最新的是fast_rcnn_resnet101_coco使用此配置管道：

model {
  faster_rcnn {
    num_classes: 10
    image_resizer {
      keep_aspect_ratio_resizer {
        min_dimension: 600
        max_dimension: 1024
      }
    }
    feature_extractor {
      type: 'faster_rcnn_resnet101'
      first_stage_features_stride: 16
    }
    first_stage_anchor_generator {
      grid_anchor_generator {
        scales: [0.25, 0.5, 1.0, 2.0]
        aspect_ratios: [0.5, 1.0, 2.0]
        height_stride: 16
        width_stride: 16
      }
    }
    first_stage_box_predictor_conv_hyperparams {
      op: CONV
      regularizer {
        l2_regularizer {
          weight: 0.0
        }
      }
      initializer {
        truncated_normal_initializer {
          stddev: 0.01
        }
      }
    }
    first_stage_nms_score_threshold: 0.0
    first_stage_nms_iou_threshold: 0.7
    first_stage_max_proposals: 300
    first_stage_localization_loss_weight: 2.0
    first_stage_objectness_loss_weight: 1.0
    initial_crop_size: 14
    maxpool_kernel_size: 2
    maxpool_stride: 2
    second_stage_box_predictor {
      mask_rcnn_box_predictor {
        use_dropout: false
        dropout_keep_probability: 1.0
        fc_hyperparams {
          op: FC
          regularizer {
            l2_regularizer {
              weight: 0.0
            }
          }
          initializer {
            variance_scaling_initializer {
              factor: 1.0
              uniform: true
              mode: FAN_AVG
            }
          }
        }
      }
    }
    second_stage_post_processing {
      batch_non_max_suppression {
        score_threshold: 0.0
        iou_threshold: 0.6
        max_detections_per_class: 100
        max_total_detections: 300
      }
      score_converter: SOFTMAX
    }
    second_stage_localization_loss_weight: 2.0
    second_stage_classification_loss_weight: 1.0
  }
}

train_config: {
  batch_size: 1
  optimizer {
    momentum_optimizer: {
      learning_rate: {
        manual_step_learning_rate {
          initial_learning_rate: 0.0003
          schedule {
            step: 900000
            learning_rate: .00003
          }
          schedule {
            step: 1200000
            learning_rate: .000003
          }
        }
      }
      momentum_optimizer_value: 0.9
    }
    use_moving_average: false
  }
  gradient_clipping_by_norm: 10.0
  fine_tune_checkpoint: "/home/franciszek/Pobrane/models-master/research/object_detection/logo_detection/models2/faster_rcnn_resnet101_coco/model.ckpt"
  from_detection_checkpoint: true
  data_augmentation_options {
    random_horizontal_flip {
    }
  }
}

train_input_reader: {
  tf_record_input_reader {
    input_path: "/home/franciszek/Pobrane/models-master/research/object_detection/logo_detection/data2/train.record"
  }
  label_map_path: "/home/franciszek/Pobrane/models-master/research/object_detection/logo_detection/data2/label_map.pbtxt"
}

eval_config: {
  num_examples: 8000
  # Note: The below line limits the evaluation process to 10 evaluations.
  # Remove the below line to evaluate indefinitely.
  max_evals: 10
}

eval_input_reader: {
  tf_record_input_reader {
    input_path: "/home/franciszek/Pobrane/models-master/research/object_detection/logo_detection/data2/test.record"
  }
  label_map_path: "/home/franciszek/Pobrane/models-master/research/object_detection/logo_detection/data2/label_map.pbtxt"
  shuffle: false
  num_readers: 1
}

在这里您可以看到我训练近 23 小时并达到超过 12 万步后获得的结果：

损失和全损
精确

所以，我的问题是，为什么损失值会随着时间的推移而增加？它应该变得更小或者保持或多或少的恒定，但是您可以在上面的图表中清楚地看到增加的趋势。我认为一切都配置正确，并且我的数据集相当不错（.tfrecord 文件也正确“构建”）。

为了检查是否是我的错，我尝试使用其他人的数据集和配置文件。所以我用了浣熊数据集作者的文件（他提供了所有必要的文件his repo）。我只是下载了它们并开始训练，没有进行任何修改，以检查我是否会得到与他相似的结果。

令人惊讶的是，在 82k 步之后，我得到的图表与链接文章中显示的图表（在 22k 步后捕获的）完全不同。在这里您可以看到我们结果的比较：

我的损失 vs 他的全盘损失
我的精确度 vs his mAP

显然，有些东西在我的电脑上的工作方式有所不同。我怀疑这可能与我自己的数据集损失增加的原因相同，这就是我提到它的原因。

The totalLoss是其他四个损失的加权和。（RPN cla 和 reg 损失、BoxCla cla 和 reg 损失）并且它们都是评价损失。在张量板上，您可以选中或取消选中以查看仅用于训练或仅用于评估的评估结果。（比如下图有训练总结和评估总结）

如果评估损失增加，这可能表明模型过度拟合，此外，精度指标略有下降。

为了尝试更好的微调结果，您可以尝试调整四个损失的权重，例如，您可以增加BoxClassifierLoss/classification_loss让模型更好地关注这个指标。在您的配置文件中，损失权重为second_stage_classification_loss_weight and first_stage_objectness_loss_weight都是 1，而另外两个都是 2，因此该模型目前更多地关注另外两个。

关于为什么的额外问题loss_1 and loss_2是相同的。这可以通过查看张量流图来解释。

Here loss_2是总结total_loss，（注意这个total_loss与totalLoss中的不一样），红圈节点是tf.identity节点。该节点将输出与输入相同的张量，因此loss_1是相同的loss_2

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

经过一段时间的训练后，训练损失值正在增加，但模型检测物体的效果相当好的相关文章

打印出网络架构中每一层的形状

在 Keras 中我们可以如下定义网络有什么办法可以输出每层之后的形状例如我想打印出以下形状inputs在定义行之后inputs 然后打印出形状conv1在定义行之后conv1 etc inputs Input 1 img rows
Tensorflow：加权交叉熵中权重的解释

张量流函数tf nn weighted cross entropy with logits 接受论证pos weight The 文档 https www tensorflow org versions r0 11 api docs pyt
我的训练和验证代码（张量流）是否正确以及模型是否过度拟合？

这是我的代码 for it in range EPOCH 24410 BATCH SIZE tr pa tr sp sess run tr para tr spec train loss sess run loss fw op feed d
Keras 中的条件批量归一化

我正在尝试在 Keras 中实现条件批量标准化我假设我必须创建一个自定义层因此我从正常化 https github com keras team keras blob master keras layers normalization
TensorFlow 中的 global_step 是什么意思？

在这就是教程代码 https github com tensorflow tensorflow blob master tensorflow examples tutorials mnist mnist py来自 TensorFlow 网站
调用 tf.linalg.inv 时，TensorFlow 崩溃并显示无法创建 cuSolverDN 实例

我正在运行tensorflow tensoflow latest gpu码头集装箱我可以运行简单的向量运算例如矩阵乘法没有问题但是当我运行以下最小示例时 import tensorflow as tf tf linalg inv
如何访问 tf.layers.conv2d 中的内核变量？

我想可视化卷积层中的权重以观察它们如何变化但我找不到一种方法来访问卷积层中的权重tf layers conv2d 谢谢您可以通过名称访问该变量 weights sess run
如何安装libcusolver.so.11

我正在尝试安装 Tensorflow 但它要求 libcusolver so 11 而我只有 libcusolver so 10 有人可以告诉我我做错了什么吗这是我的 Ubuntu nvidia 和 CUDA 版本 uname a Lin
如何使用 Keras 中的 Conv2D 在 5D 张量的最后三个维度上应用卷积？

通常的输入张量Conv2DKeras 中是一个 4D 张量其维度为batch size n n channel size 现在我有一个 5D 张量其尺寸为batch size N n n channel size我想对中的每个 i 应用
如何在nodejs（tensorflow.js）中训练模型？

我想做一个图像分类器但我不会python Tensorflow js 使用我熟悉的 javascript 可以用它来训练模型吗训练步骤是什么坦白说我不知道从哪里开始我唯一想到的是如何加载 mobilenet 它显然是一组预先训练的
导入tensorflow时，出现以下错误：没有名为“numpy.core._multiarray_umath”的模块

我已经安装了 Ancaconda3 和 Tensorflow 当我尝试在 python shell 中导入 Tensorflow 时收到以下错误 ModuleNotFoundError 没有名为 numpy core multiarray
Tensorboard 和 Dropout 层

我有一个非常基本的查询我制作了 4 个几乎相同差异在于输入形状的 CNN 并在连接到全连接层的前馈网络时合并了它们几乎相同的 CNN 的代码 model3 Sequential model3 add Convolution2D 32
Tensorflow 对象检测 API 无效参数：元组组件 16 中的形状不匹配。预期为 [1,?,?,3]，得到 [1,182,322,4]

这是来自的后续问题这个 Github 问题 https github com tensorflow tensorflow issues 13044 长话短说我尝试将 Tensorflow 对象检测 API 与我自己的数据集结合使用一切都
Tensorflow新Op CUDA内核内存管理

我已经使用 GPU CUDA 内核在 Tensorflow 中实现了一个相当复杂的新 Op 该操作需要大量动态内存分配这些变量不是张量并且在操作完成后被释放更具体地说它涉及使用哈希表现在我正在使用cudaMalloc and cu
如何在 Tensorflow 中使用预训练的 Word2Vec 模型

我有一个Word2Vec训练过的模型Gensim 我如何使用它Tensorflow for Word Embeddings 我不想在 Tensorflow 中从头开始训练嵌入有人可以告诉我如何用一些示例代码来做到这一点吗假设您有一个字典
Tensorflow：尽管数据中没有字符串，但使用 tflearn 时不支持将字符串转换为浮点数错误

我似乎无法在我的代码中找到错误其中有任何字符串被错误地转换为浮点数但它却给了我这个错误 W tensorflow core framework op kernel cc 958 Unimplemented Cast string to
从字符串列表创建 TfRecords 并在解码后在张量流中提供图形

目的是创建 TfRecords 数据库给定我有 23 个文件夹每个文件夹包含 7500 个图像以及 23 个文本文件每个文件有 7500 行描述单独文件夹中 7500 个图像的特征我通过以下代码创建了数据库 import ten
如何将两个 keras 模型连接成一个模型？

假设我有一个 ResNet50 模型我希望将该模型的输出层连接到 VGG 模型的输入层这是 ResNet 模型和 ResNet50 的输出张量 img shape 164 164 3 resnet50 model ResNet50 in
AttributeError：模块“tensorflow.python.framework.ops”没有属性“RegisterShape”

我正在使用 TensorFlow 2 1 0 dev20191125 不幸的是我无法编译一个带有错误的简单示例 AttributeError 模块 tensorflow python framework ops 没有属性 Registe
交换keras中的张量轴

我想将图像批次的张量轴从 batch size row col ch 交换为批次大小通道行列在 numpy 中这可以通过以下方式完成 X batch np moveaxis X batch 3 1 我该如何在 Keras 中做到

随机推荐

我想引用另一个 python 脚本中的变量

一个变量AA is in aaa py 我想在我的其他 python 文件中使用这个变量bbb py 我如何访问这个变量您正在寻找modules In aaa py AA Foo In bbb py import aaa print aa
CPU Arch 的交叉编译或原生编译

编写依赖于 CPU 架构的软件时例如在 x86 上运行的 C 代码或在 ARM CPU 上运行的 C 代码通常有两种方法可以编译此代码要么交叉编译到 ARM CPU 架构例如如果您在 x86 系统上进行开发要么将代码复制到本机架
H2161 警告：重复资源：类型 10 (RCDATA)

我尝试将资源文件包含在我的包中当我构建包时我读到了这个警告 dcc32 Conseil H2161 Warning Duplicate resource Type 10 RCDATA ID PLUSUTILISEVOIR File Pr
Android 删除参数以匹配“intent()”

我正在尝试开始第二个活动但代码出现错误 import android os Bundle import android content Intent import android app Activity import android w
UIAlertView 第一个被弃用的 iOS 9

我尝试了多种方法来使用 UIAlertController 而不是 UIAlertView 我尝试了多种方法但无法使警报操作发挥作用这是我的代码在 IOS 8 和 IOS 9 中运行良好但显示为已弃用的标志我尝试了下面的优雅建议
推荐在 java 中使用 WMI 的库/方法？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南目前不接受答案嘿伙计我有一个相当大的商业项目因此付费许可始终是一种选择该项目正在迁移到 Windows 空间并且我计划使用 WMI 进行大量轮询这是一个
如何从现有代码创建 WordPress 短代码？

我有这段代码来显示所有帖子的类别和第一篇帖子的缩略图 ul li li ul
将具有常量值的列添加到pandas数据框中[重复]

这个问题在这里已经有答案了给定一个数据框 np random seed 0 df pd DataFrame np random randn 3 3 columns list ABC index 1 2 3 df A B C 1 1 764
在静态方法中引用类而不使用其名称

如何在 JavaScript 中不使用类名本身的情况下从静态方法引用类类似于 PHP 的self and self method name 例如在下面的类中我如何引用该方法foo和方法bar里面的foobar method 不使用 F
使用点后模板函数的特化将破坏编译

考虑下一个例子 include
预期响应代码 220，但在 Laravel 中收到代码“”，并带有消息“”

我正在使用 Laravel Mail 功能来发送电子邮件以下是我的app config mail php文件设置 driver gt sendmail host gt smtp gmail com port gt 587 from gt
如何设置 AWS Cognito TOTP MFA？

我正在尝试使用 AWS Cognito 设置 MFA 身份验证作为工作项目的小型概念证明我已经成功通过短信发送的 MFA 代码获取了用户名和密码工作正常努力获得 TOTP 方法如图所示用例 27使用我的小型登录应用程序 https
如何将位图缓存到本机内存中

为了获得 10 000 分我决定为这个很酷的网站做出一些贡献一种在本机内存上缓存位图的机制背景 Android 设备为每个应用程序提供的内存量非常有限堆范围从 16MB 到 128MB 具体取决于各种参数如果超过此限制则会出现
使用向量.sort() 无效使用非静态成员函数

我想使用 sort 函数根据其第一列对二维向量进行排序但不幸的是我通过传递 compareAscending 函数得到无效使用非静态成员函数compareAscending 错误我也尝试过将函数设为静态但遇到了同样的问题 stat
在样式表中使用 * 选择器来重置样式

目前我只是在样式表顶部重置我需要的样式例如 html body div fieldset form h1 h2 h3 h4 p ul li margin 0 padding 0 然而我见过很多次人们使用 margin 0 padding
MySQL JDBC 驱动程序 5.1.33 - 时区问题

一些背景我有一个在 Tomcat 7 上运行的 Java 1 6 Web 应用程序数据库是 MySQL 5 5 以前我使用 Mysql JDBC 驱动程序 5 1 23 连接到数据库一切顺利我最近升级到 Mysql JDBC 驱动
Ninject 与通用存储库 MVC 的绑定在无参数构造函数上返回错误

我正在尝试使用一个相当简单的通用存储库来存储应用程序中的多个管理列表管理员用户的功能只是 CRUD 以保持列表最新以便在其他地方用作查找我不断收到以下形式的错误尝试创建类型的控制器时发生错误 WhatWorks Controller
设置 Spring Web Service 时未找到端点映射

我是设置 Spring Web 应用程序的初学者我已经走到这一步了但现在我发现自己陷入了困境我收到以下错误 WARNING No endpoint mapping found for SaajSoapMessage http myco
在 C# 中反射性地实现泛型类型推断

我需要为脚本语言实现进行一些通用类型推断我想知道我是否缺少一些简单的方法目前我只询问类型结构并忽略边界为了说明这一点下面是一个深度嵌套的示例 T foo
经过一段时间的训练后，训练损失值正在增加，但模型检测物体的效果相当好

我在训练 CNN 从我自己的数据集中检测对象时遇到了一个奇怪的问题我正在使用迁移学习并且在训练开始时损失值正在下降如预期但过了一段时间它变得越来越高我不知道为什么会发生这种情况与此同时当我看着Images使用 Tensor

经过一段时间的训练后，训练损失值正在增加，但模型检测物体的效果相当好

经过一段时间的训练后，训练损失值正在增加，但模型检测物体的效果相当好 的相关文章

随机推荐

热门标签

经过一段时间的训练后，训练损失值正在增加，但模型检测物体的效果相当好的相关文章