在 Tensorflow 中使用迁移学习是否需要预定义图像大小？

2024-05-25

我打算使用预先训练的模型，例如fast_rcnn_resnet101_pets用于 Tensorflow 环境中的对象检测，如所述here https://tensorflow-object-detection-api-tutorial.readthedocs.io/en/latest/training.html

我为训练和测试集收集了几张图像。所有这些图像都有不同的尺寸。我必须将它们调整为通用尺寸吗？

faster_rcnn_resnet101_pets uses resnet with input size 224x224x3.

这是否意味着我必须在发送图像进行训练之前调整所有图像的大小？或者由 TF 自动处理。

python train.py --logtostderr --train_dir=training/ --pipeline_config_path=training/faster_rcnn_resnet101_pets.config

一般来说，使用相同大小的图像是一个好习惯吗？

不，您不需要自己将输入图像的大小调整为固定形状。Tensorflow 对象检测 api 有一个预处理步骤，可以调整所有输入图像的大小。以下是预处理步骤中定义的函数，其中有一个image_resizer_fn，它对应于一个名为image_resizer在配置内file https://github.com/tensorflow/models/blob/master/research/object_detection/inputs.py.

def transform_input_data(tensor_dict,
                     model_preprocess_fn,
                     image_resizer_fn,
                     num_classes,
                     data_augmentation_fn=None,
                     merge_multiple_boxes=False,
                     retain_original_image=False,
                     use_multiclass_scores=False,
                     use_bfloat16=False):


"""A single function that is responsible for all input data transformations.
  Data transformation functions are applied in the following order.
  1. If key fields.InputDataFields.image_additional_channels is present in
     tensor_dict, the additional channels will be merged into
     fields.InputDataFields.image.
  2. data_augmentation_fn (optional): applied on tensor_dict.
  3. model_preprocess_fn: applied only on image tensor in tensor_dict.
  4. image_resizer_fn: applied on original image and instance mask tensor in
     tensor_dict.
  5. one_hot_encoding: applied to classes tensor in tensor_dict.
  6. merge_multiple_boxes (optional): when groundtruth boxes are exactly the
     same they can be merged into a single box with an associated k-hot class
     label.

根据proto https://github.com/tensorflow/models/blob/master/research/object_detection/protos/image_resizer.proto文件中，您可以在 4 种不同的图像缩放器中进行选择，即

keep_aspect_ratio_resizer
固定形状调整器
身份调整器
条件形状调整器

Here https://github.com/tensorflow/models/blob/master/research/object_detection/samples/configs/faster_rcnn_resnet101_pets.config是模型的示例配置文件faster_rcnn_resnet101_pets并且图像全部用 min_dimension=600 和 max_dimension=1024 重新整形

model {
  faster_rcnn {
    num_classes: 37
    image_resizer {
      keep_aspect_ratio_resizer {
        min_dimension: 600
        max_dimension: 1024
      }
    }
    feature_extractor {
      type: 'faster_rcnn_resnet101'
      first_stage_features_stride: 16
    }

事实上，调整大小的图像的形状对检测速度和准确度性能有很大影响。虽然对输入图像的大小没有具体要求，但最好所有最小尺寸的图像都大于合理值，以便卷积运算正常工作。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 Tensorflow 中使用迁移学习是否需要预定义图像大小？的相关文章

Keras 显示 GPU 训练速度没有任何改进（部分 GPU 使用？！）

我正在尝试在我的 Jupyter Notebook 的 AWS p2 xlarge 实例上的 GPU 而不是 CPU 上训练我的模型我正在使用tensorflow gpu后端仅tensorflow gpu已安装并在中提到requirem
ptb_word_lm中batch_size的含义（tensorflow的LSTM模型）

我是张量流的新手我现在对它的含义有点困惑batch size 众所周知其含义是batch size是每批次的样本数但是根据中的代码ptb word lm 似乎不是读者 py data len tf size raw data the
打印出网络架构中每一层的形状

在 Keras 中我们可以如下定义网络有什么办法可以输出每层之后的形状例如我想打印出以下形状inputs在定义行之后inputs 然后打印出形状conv1在定义行之后conv1 etc inputs Input 1 img rows
Tensorflow：加权交叉熵中权重的解释

张量流函数tf nn weighted cross entropy with logits 接受论证pos weight The 文档 https www tensorflow org versions r0 11 api docs pyt
张量流如何处理复杂的梯度？

Let z是一个复变量 C z 是它的共轭在复分析理论中导数C z w r t z不存在但在张量流中我们可以计算dC z dz结果就是1 这是一个例子 x tf placeholder complex64 2 2 y tf redu
Keras，如何获取每一层的输出？

我已经用 CNN 训练了一个二元分类模型这是我的代码 model Sequential model add Convolution2D nb filters kernel size 0 kernel size 1 border mode
Keras 中的条件批量归一化

我正在尝试在 Keras 中实现条件批量标准化我假设我必须创建一个自定义层因此我从正常化 https github com keras team keras blob master keras layers normalization
Keras Predict_classes 方法返回“列表索引超出范围”错误

我对 CNN 和机器学习总体来说是新手并且一直在尝试遵循 TensorFlow 的图像分类教程现在可以找到Google Colabhere https colab research google com drive 1gwZp7 t
支持 Nvidia CUDA 工具包 9.2

Tensorflow gpu 绑定到 Nvidia CUDA Toolkit 的特定版本的原因是什么当前版本似乎专门寻找 9 0 并且不适用于任何更高版本例如我安装了最新的 Toolkit 9 2 并将其添加到路径中但 Tensor
您必须使用 dtype float(Tensorflow) 为占位符张量“Placeholder”提供值

import tensorflow as tf import os import sklearn preprocessing import pandas as pd import numpy as np print os getcwd os
导入tensorflow时，出现以下错误：没有名为“numpy.core._multiarray_umath”的模块

我已经安装了 Ancaconda3 和 Tensorflow 当我尝试在 python shell 中导入 Tensorflow 时收到以下错误 ModuleNotFoundError 没有名为 numpy core multiarray
Tensorflow图像读取空

这个问题是基于 Tensorflow图像读取与显示 https stackoverflow com questions 33648322 tensorflow image reading display 根据他们的代码我们得到以下内容 s
从 Keras 检查点加载

我正在 Keras 中训练一个模型我使用以下代码保存了所有内容 filepath project model hdh5 checkpoint ModelCheckpoint project model hdf5 monitor loss
使用 tf.keras.Models.Sequential 构建的架构是否比使用 Tensorflow 的功能 API 构建的架构运行得更慢、更准确？

我只是比较了 2 个我认为等效的 VGG ish 架构一个是使用构建的tf keras Models Sequential 另一个用了Tensorflow 的函数式 API 每个人都试图解决cats vs dogs 数据集经过 10
conv1D 中形状的尺寸

我尝试过构建一个只有一层的 CNN 但遇到了一些问题事实上编译器告诉我 ValueError 检查模型输入时出错预期的 conv1d 1 input 具有 3 个维度但得到形状为 569 30 的数组这是代码 import num
Tensorflow新Op CUDA内核内存管理

我已经使用 GPU CUDA 内核在 Tensorflow 中实现了一个相当复杂的新 Op 该操作需要大量动态内存分配这些变量不是张量并且在操作完成后被释放更具体地说它涉及使用哈希表现在我正在使用cudaMalloc and cu
Tensorflow seq2seq 获取序列隐藏状态

我不久前才开始研究tensorflow 我正在研究 seq2seq 模型并以某种方式让教程起作用但我一直坚持获取每个句子的状态据我了解 seq2seq 模型采用输入序列并通过 RNN 为序列生成隐藏状态随后模型使用序列的隐藏状态来
如何在 Tensorflow Keras 中规范化我的图像数据

如前所述我正在尝试在训练模型之前标准化我的数据集我正在使用tf keras preprocessing image ImageDataGenerator之前执行此操作 train data tf cast train data tf f
使用 Tkinter 显示 numpy 数组中的图像

我对 Python 缺乏经验第一次使用 Tkinter 制作一个 UI 显示我的数字分类程序与 mnist 数据集的结果当图像来自 numpy 数组而不是我的 PC 上的文件路径时我有一个关于在 Tkinter 中显示图像的问题我为
NotImplementedError：无法将符号张量 (lstm_2/strided_slice:0) 转换为 numpy 数组。时间

张量流版本 2 3 1 numpy 版本 1 20 在代码下面 define model model Sequential model add LSTM 50 activation relu input shape n steps n fe

随机推荐

如何在php中获取#后面的URL锚点部分

在我的项目中使用 LightBox 机制时我得到了一个 URLhttp nhs search panel php patentid 2 http nhs search panel php patientid 2我需要通过 GET 机制从中
在 Spring 4 中干掉通用的 RedisTemplate

我读到你可以拥有 Autowired从 Spring 4 开始泛型这太棒了我有一个摘要RedisService我想参加的课程 Autowired一个通用的 RestTemplate 如下所示 public abstract class
LLDB 在地址处中断

我为这个可能微不足道的问题表示歉意但我遇到了麻烦因为谷歌一遍又一遍地给我相同的不适用的答案我正在尝试在 LLDB 中设置断点阅读文档后我可以选择停止在源代码中的某一行或某个符号上我想要做的是在某个内存位置设置断点也不读取或写入
当没有数据时，空 json 对象而不是 null -> 如何使用 gson 反序列化

我正在尝试使用 Google 的 gson 库解析 json 数据但 json 数据表现不佳当一切正常时它确实看起来像这样 parent child one some String child two 4711 child one应该
使用 math.h 函数时 gdb 给出奇怪的输出[重复]

这个问题在这里已经有答案了可能的重复为什么 gdb 将 sqrt 3 计算为 0 https stackoverflow com questions 5122570 why does gdb evaluate sqrt3 to 0 这里
组合多个任意长度的列表

我正在寻找一种通过以下方式加入多个列表的方法 ListA a b c ListB 1 2 3 4 ListC Resulting List a 1 b 2 c 3 4 换句话说元素按顺序排列从第一个列表开始组合到结果列表中任意数量的输
kafka ProducerRecord 和 KeyedMessage 有什么区别

我正在衡量卡夫卡生产者生产者的表现目前我遇到了两个配置和用法略有不同的客户 Common def buildKafkaConfig hosts String port Int Properties val props new Proper
C++ 中如何检查指针是否仍然指向有效内存？

我有一个指针等于另一个指针我想检查我的指针是否等于不为空的指针 int ptr0 new int 5 int ptr1 ptr0 delete ptr0 if std cout lt lt ptr1 equals to a null pt
模糊匹配两个字符串 ur r

我有两个向量每个向量都包含一系列字符串例如 V1 c pen document folder warn V2 c pens copy folder warning 我需要找出哪两个最匹配我直接使用编辑距离但这还不够好就我而言钢笔
如何使用语言服务器协议将 TS 解析为符号？

我是这个主题的新手所以我很可能弄错了一些关键术语我想将打字稿文件解析为其组件符号举一个我想象的非常粗略的例子请参见下文 some ts file export function yell output string alert ou
霸权继承——真的很糟糕吗？

我是那些必须在 0 警告的情况下编译代码的人之一通常我尊重编译器如果它向我发出警告我会将其视为我应该稍微修改我的代码的标志如果我必须告诉编译器忽略给定的警告我会有点抽搐但这件事我似乎无法回避而且据我所知我没有做过任何坏事
端点路由.net core 3-多区域

我正在尝试从 net core 2 2 路由迁移到 asp net core 3 中的端点路由并在启动时使用以下路由我的 net core 2 2 路线是 routes MapRoute name default template co
为什么在 php 类中作为数组项的函数不起作用

比如我有这样一段代码效果很好但是如果 A 不仅仅是一个变量而且是一个类方法那么这不起作用
Bootstrap 3 RC 1 准备好投入生产了吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我今天要开始一个巨大的项目我选择 Zurb 基金会是因为他们非常良好的移动优先策略当我几个月前开始四处寻找时 Bootstrap 3 还
移动 sf 对象的经度

我有一张国家地图 sf 对象我想改变俄罗斯东部的经度以便它不与俄罗斯其他地区隔离看图片 https i stack imgur com NBjyK jpg 我找到了后端代码st shift longitude https github
用 while 循环代替递归（爬楼梯难题）：Python

我正在练习用 while 循环替换递归但我遇到了以下问题如果你一次只能走 1 或 2 级楼梯你有多少种方式登上长度为 n 的楼梯递归解决方案非常简单 def stairs n if n lt 1 return 1 else retu
如何从 C++ std::basic_ostream 派生并使 << 运算符虚拟？

我正在编写一个具有各种消息输出的类我想让这个类变得通用并且独立于平台所以我正在考虑通过一个基本流引用它它可以将所有消息转储到流中通过这样做如果该类在控制台程序中使用我可以通过std cout并显示在控制台窗口中或者我可以将派生
如何强制 Maven 使用本地存储库而不是前往远程存储库来检索工件？

我在 Mac Yosemite 上使用 Maven 3 3 3 和 Java 8 我有一个多模块项目
AutoCompleteTextView 不显示字典建议

我有一个习惯AutoCompleteTextView用户可以在其中输入文本每当用户写时我都会显示一个下拉菜单其中包含自定义用户名的建议不幸的是我还需要在键盘上方显示字典单词建议并且出于某种原因 AutoCompleteText
在 Tensorflow 中使用迁移学习是否需要预定义图像大小？

我打算使用预先训练的模型例如fast rcnn resnet101 pets用于 Tensorflow 环境中的对象检测如所述here https tensorflow object detection api tutorial rea

在 Tensorflow 中使用迁移学习是否需要预定义图像大小？

在 Tensorflow 中使用迁移学习是否需要预定义图像大小？ 的相关文章

随机推荐

热门标签

在 Tensorflow 中使用迁移学习是否需要预定义图像大小？的相关文章