如何在tf-slim中使用evaluation_loop和train_loop

2024-03-24

我正在尝试实现一些不同的模型并在 CIFAR-10 上训练它们，我想使用 TF-slim 来做到这一点。看起来 TF-slim 有两个在训练期间有用的主要循环：train_loop 和 evaluation_loop。

我的问题是：使用这些循环的规范方法是什么？作为后续：是否可以使用 train_loop 提前停止？

目前我有一个模型，我的训练文件 train.py 看起来像这样

import ...
train_log_dir = ...

with tf.device("/cpu:0"):
  images, labels, dataset = set_up_input_pipeline_with_fancy_prefetching( 
                                                                subset='train', ... )
logits, end_points = set_up_model( images ) // Possibly using many GPUs
total_loss = set_up_loss( logits, labels, dataset )
optimizer, global_step = set_up_optimizer( dataset )
train_tensor = slim.learning.create_train_op( 
                                      total_loss, 
                                      optimizer,
                                      global_step=global_step,
                                      clip_gradient_norm=FLAGS.clip_gradient_norm,
                                      summarize_gradients=True)
slim.learning.train(train_tensor, 
                      logdir=train_log_dir,
                      local_init_op=tf.initialize_local_variables(),
                      save_summaries_secs=FLAGS.save_summaries_secs,
                      save_interval_secs=FLAGS.save_interval_secs)

到目前为止这非常棒——我的模型都训练和收敛得很好。我可以从事件中看到这一点train_log_dir所有指标都朝着正确的方向发展。朝着正确的方向前进让我很高兴。

但我想检查验证集上的指标是否也在改进。我不知道有什么方法可以与训练循环很好地配合 TF-slim，所以我创建了第二个文件，名为eval.py其中包含我的评估循环。

import ...
train_log_dir = ...

with tf.device("/cpu:0"):
  images, labels, dataset = set_up_input_pipeline_with_fancy_prefetching( 
                                                                subset='validation', ... )
logits, end_points = set_up_model( images )
summary_ops, names_to_values, names_to_updates = create_metrics_and_summary_ops( 
                                                                logits,
                                                                labels,
                                                                dataset.num_classes() )

slim.get_or_create_global_step()
slim.evaluation.evaluation_loop(
      '',
      checkpoint_dir=train_log_dir,
      logdir=train_log_dir,
      num_evals=FLAGS.num_eval_batches,
      eval_op=names_to_updates.values(),
      summary_op=tf.merge_summary(summary_ops),
      eval_interval_secs=FLAGS.eval_interval_secs,
      session_config=config)

问题：

1) 我目前有一个用于评估循环的模型，占用了整个 GPU，但很少使用。我认为有更好的方法来分配资源。如果我可以使用相同的评估循环来监视多个不同模型（多个目录中的检查点）的进度，那就太好了。这样的事情可能吗？

2）评估和培训之间没有反馈。我正在训练大量模型，并且希望使用提前停止来停止那些无法学习或无法收敛的模型。有没有办法做到这一点？理想情况下使用验证集中的信息，但如果它必须仅基于训练数据，也可以。

3）我的工作流程是否全部错误，我应该以不同的方式构建它？文档中并不清楚如何将评估与培训结合使用。

Update~~似乎从 TF r0.11 开始，我在调用时也遇到了段错误slim.evaluation.evaluation_loop。它只是有时发生（对我来说，当我将工作分配到集群时）。它发生在sv.managed_session- 具体来说prepare_or_wait_for_session.~~ 这只是由于评估循环（张量流的第二个实例）尝试使用 GPU，而 GPU 已被第一个实例占用。

evaluation_loop 旨在与单个目录一起使用（正如您当前正在使用的那样）。如果您想提高效率，可以使用 slim.evaluation.evaluate_once 并添加适当的逻辑来交换您认为合适的目录。
您可以通过覆盖 slim.learning.train(..., train_step_fn) 参数来做到这一点。此参数用自定义函数替换“train_step”函数。在这里，您可以提供自定义训练函数，该函数返回您认为合适的“total_loss”和“should_stop”值。
您的工作流程看起来很棒，这可能是使用 TF-Slim 学习/评估的最常见工作流程。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

tensorflow

tfslim

如何在tf-slim中使用evaluation_loop和train_loop 的相关文章

在自定义 keras 层的调用函数中传递附加参数

我创建了一个自定义 keras 层目的是在推理过程中手动更改前一层的激活以下是基本层它只是将激活值乘以一个数字 import numpy as np from keras import backend as K from keras
无法从 DenseVariational 获得合理的结果

我正在尝试使用以下大小的数据集正弦曲线进行回归问题500 首先我尝试使用 2 个密集层每个层有 10 个单元 model tf keras Sequential tf keras layers Dense 10 activation
张量流如何处理复杂的梯度？

Let z是一个复变量 C z 是它的共轭在复分析理论中导数C z w r t z不存在但在张量流中我们可以计算dC z dz结果就是1 这是一个例子 x tf placeholder complex64 2 2 y tf redu
Keras 中的条件批量归一化

我正在尝试在 Keras 中实现条件批量标准化我假设我必须创建一个自定义层因此我从正常化 https github com keras team keras blob master keras layers normalization
Keras Predict_classes 方法返回“列表索引超出范围”错误

我对 CNN 和机器学习总体来说是新手并且一直在尝试遵循 TensorFlow 的图像分类教程现在可以找到Google Colabhere https colab research google com drive 1gwZp7 t
如何在对象检测 API Tensorflow 中仅检测人体

我在用tensorflow对象检测 API 用于检测对象它在我的 Windows 系统中运行良好我如何对其进行更改以仅检测提到的对象例如我只想检测人类而不是所有对象根据此中的第 1 条评论answer https stackove
如何访问 tf.layers.conv2d 中的内核变量？

我想可视化卷积层中的权重以观察它们如何变化但我找不到一种方法来访问卷积层中的权重tf layers conv2d 谢谢您可以通过名称访问该变量 weights sess run
如何安装libcusolver.so.11

我正在尝试安装 Tensorflow 但它要求 libcusolver so 11 而我只有 libcusolver so 10 有人可以告诉我我做错了什么吗这是我的 Ubuntu nvidia 和 CUDA 版本 uname a Lin
跨多个 GPU/机器的 TF-Slim 的配置/标志

我很好奇是否有关于如何使用部署 model deploy py 在多台机器上的多个 GPU 上运行 TF Slim models slim 的示例该文档非常好但我缺少一些内容具体来说需要为worker device和ps devic
ValueError：形状（无，50）和（无，1）在 Tensorflow 和 Colab 中不兼容

我正在使用 LSTM 训练 Tensorflow 模型以进行预测维护对于每个实例我创建一个矩阵 50 4 其中 50 是历史序列的长度 4 是每个记录的特征数量因此为了训练模型我使用例如 55048 50 4 张量和 55048 1
您必须使用 dtype float(Tensorflow) 为占位符张量“Placeholder”提供值

import tensorflow as tf import os import sklearn preprocessing import pandas as pd import numpy as np print os getcwd os
如何使用 Tensorflow 中的 Hugging Face Transformers 库对自定义数据进行文本分类？

我正在尝试使用 Hugging Face Transformers 库提供的不同变压器架构对自定义数据 csv 格式进行二进制文本分类我正在用这个张量流博客文章 https blog tensorflow org 2019 11 hug
Tensorflow图像读取空

这个问题是基于 Tensorflow图像读取与显示 https stackoverflow com questions 33648322 tensorflow image reading display 根据他们的代码我们得到以下内容 s
通过 cmake 使用预编译的张量流

我已经建立了一个 C 项目CLion使用CMake 我正在使用各种第三方库并且还想集成张量流我试过了bazel编译张量流到共享库libtensorflow so哪种工作有效但是仍然有相当多的依赖项例如当前的 protobuf 版本
如何在 Tensorflow 中使用预训练的 Word2Vec 模型

我有一个Word2Vec训练过的模型Gensim 我如何使用它Tensorflow for Word Embeddings 我不想在 Tensorflow 中从头开始训练嵌入有人可以告诉我如何用一些示例代码来做到这一点吗假设您有一个字典
从字符串列表创建 TfRecords 并在解码后在张量流中提供图形

目的是创建 TfRecords 数据库给定我有 23 个文件夹每个文件夹包含 7500 个图像以及 23 个文本文件每个文件有 7500 行描述单独文件夹中 7500 个图像的特征我通过以下代码创建了数据库 import ten
如何强制tensorflow使用所有可用的GPU？

我有一个 8 GPU 集群当我运行Kaggle 的一段 Tensorflow 代码 https www kaggle com keegil keras u net starter lb 0 277 scriptVersionId 2164
如何将两个 keras 模型连接成一个模型？

假设我有一个 ResNet50 模型我希望将该模型的输出层连接到 VGG 模型的输入层这是 ResNet 模型和 ResNet50 的输出张量 img shape 164 164 3 resnet50 model ResNet50 in
如何在 Tensorflow Keras 中规范化我的图像数据

如前所述我正在尝试在训练模型之前标准化我的数据集我正在使用tf keras preprocessing image ImageDataGenerator之前执行此操作 train data tf cast train data tf f
如何解释tf.map_fn的结果？

看代码 import tensorflow as tf import numpy as np elems tf ones 1 2 3 dtype tf int64 alternates tf map fn lambda x x x x el

随机推荐

Rails 5.x：如何在运行时添加路由而不覆盖原始路由表？

假设我有一个控制器操作应该会导致将新路由添加到路由表中 def make route vanity url params vanity url vanity redirect params vanity redirect return r
odbc 驱动程序不支持请求的属性

当我们在最后一行运行程序时 odbc 驱动程序不支持请求的属性错误出现任何人都可以给我一个想法 Dim conn As New ADODB Connection Dim rsRec As ADODB Recordset Dim cmd
如何在张量流中使用非常大（>2M）的词嵌入？

我正在运行一个具有非常大的词嵌入 gt 2M 词的模型当我使用 tf embedding lookup 时它需要一个很大的矩阵当我运行时我随后出现了 GPU 内存错误如果我减小嵌入的大小一切都会正常有没有办法处理更大的嵌入
如何在 Matlab 启动时设置一些自定义变量

我想设置一些初始变量例如format compact和当前目录在 Matlab 每次启动时自动执行我怎样才能做到这一点创建一个startup m 脚本文件其中包含用于设置所需状态的命令接下来从 MATLAB 内部运行命令 gt
在 BigQuery python api 中设置聚类列

我正在尝试在 BigQuery 中创建集群表当我在 UI 中测试它时它工作得很好 CREATE OR REPLACE TABLE project id xyz temp clustering PARTITION BY date CLUS
使用具有应用程序权限的 Microsoft Graph API 时，租户没有 SPO 许可证

当我们尝试访问 Microsoft Graph v1 0 API 中的 Sharepoint 终结点时我们收到 400 错误并显示消息租户没有 SPO 许可证我们已经注册了 Azure AD 应用程序并为相关端点分配了应用程序权限
为什么函数返回 nil FireBase Swift [重复]

这个问题在这里已经有答案了为什么函数会返回 nil 我尝试添加 DispathQue 但我不明白它应该如何正确请帮忙 func storagePutData uid String image UIImage compretition e
Spring 中的 Hibernate 事务管理器配置

在我的项目中我使用 Hibernate 进行编程事务划分每次在我的服务方法中我都会写类似的东西 Session session HibernateUtil getSessionFactory openSession session be
这样做的目的是什么(MyJobject as ILocalObject).GetObjectID

在delphi Tokyo源代码中我看到这两种不同的方式来检索服务经理 var FLocationManager JLocationManager FLocationManager TJLocationManager Wrap TAnd
express-jwt 不尊重未受保护的路径

有关express jwt模块的信息可以在这里找到 https github com auth0 express jwt https github com auth0 express jwt https www npmjs com pack
让笑话在故事书中全球可用

我在用 storybook react 6 in a create react app项目我对所有商店对象等进行了数千次测试和模拟这些模拟利用jest fn 我想在我的故事书故事中重复使用这些模拟但它说jest is not def
neo4j 使用选项卡加载 CSV

我正在尝试使用以下命令加载 csv 并在 neo4j 2 1 0 中创建节点使用定期提交从 file c temp listings TXT 加载 CSV AS 行 FIELDTERMINATOR t CREATE p person i
mmap 与 fileinput 的优点

我读到 mmap 比 fileinput 有优势因为它会将页面读入内核页面缓存并在用户地址空间中共享该页面而 fileinput 实际上将一个页面带入内核并将一行复制到用户地址空间因此文件输入会产生额外的空间开销所以我打算转向
如何在 PostgreSQL 的函数内编写WITH(CTE)

我正在尝试使用 WITH 它是 PostgreSQL 函数中的公共表表达式以下是示例 Example Create or replace function withFunction returns void as Body Begin W
变换比例导致间隙/线条

我目前正在构建一个网站但遇到了问题transform scale 我有一个按钮当用户将鼠标悬停在它上面时会发生两件事背景沿对角线扫过按钮标签颜色改变按钮稍微变大我已经完成了这个工作看起来非常好但是在实施之后3 当按钮变大
dlclose 上不会调用共享库中全局静态变量的析构函数

在主程序中我dlopen and dlclose LoadLibrary and FreeLibrary分别一个共享库共享库包含一个实例化的静态变量dlopen 并销毁于dlclose 此行为在 MSVC 2008 和 2013 GC
如何分割逗号分隔的字符串，同时忽略转义逗号？

我需要编写 StringUtils commaDelimitedListToStringArray 函数的扩展版本它获取一个附加参数转义字符所以打电话给我的 commaDelimitedListToStringArray test t
Docker 用户无法写入已安装的文件夹

我有以下设置 selenium chrome image selenium node chrome debug 3 141 59 neon container name chrome e2e depends on selenium hub
如何在 Cloudformation 模板中使列表项成为条件？

我有以下创建代码管道的云形成模板该管道分为三个阶段 Stages Name Source Actions Name Source ActionTypeId Category Source Owner ThirdParty Version
如何在tf-slim中使用evaluation_loop和train_loop

我正在尝试实现一些不同的模型并在 CIFAR 10 上训练它们我想使用 TF slim 来做到这一点看起来 TF slim 有两个在训练期间有用的主要循环 train loop 和 evaluation loop 我的问题是使用这些循

如何在tf-slim中使用evaluation_loop和train_loop

如何在tf-slim中使用evaluation_loop和train_loop 的相关文章

随机推荐

热门标签