使用 feed_dict 比使用数据集 API 快 5 倍以上？

2023-11-21

我创建了一个 TFRecord 格式的数据集进行测试。每个条目包含 200 列，名为C1 - C199，每个都是一个字符串列表，和一个label列来表示标签。创建数据的代码可以在这里找到：https://github.com/codescv/tf-dist/blob/8bb3c44f55939fc66b3727a730c57887113e899c/src/gen_data.py#L25

然后我使用线性模型来训练数据。第一种方法如下所示：

dataset = tf.data.TFRecordDataset(data_file)
dataset = dataset.prefetch(buffer_size=batch_size*10)
dataset = dataset.map(parse_tfrecord, num_parallel_calls=5)
dataset = dataset.repeat(num_epochs)
dataset = dataset.batch(batch_size)

features, labels = dataset.make_one_shot_iterator().get_next()    
logits = tf.feature_column.linear_model(features=features, feature_columns=columns, cols_to_vars=cols_to_vars)
train_op = ...

with tf.Session() as sess:
    sess.run(train_op)

完整代码可以在这里找到：https://github.com/codescv/tf-dist/blob/master/src/lr_single.py

当我运行上面的代码时，我得到 0.85 步/秒（批量大小为 1024）。

在第二种方法中，我手动将数据集中的批次获取到 python 中，然后将它们提供给占位符，如下所示：

example = tf.placeholder(dtype=tf.string, shape=[None])
features = tf.parse_example(example, features=tf.feature_column.make_parse_example_spec(columns+[tf.feature_column.numeric_column('label', dtype=tf.float32, default_value=0)]))
labels = features.pop('label')
train_op = ...

dataset = tf.data.TFRecordDataset(data_file).repeat().batch(batch_size)
next_batch = dataset.make_one_shot_iterator().get_next()

with tf.Session() as sess:
    data_batch = sess.run(next_batch)
    sess.run(train_op, feed_dict={example: data_batch})

完整代码可以在这里找到：https://github.com/codescv/tf-dist/blob/master/src/lr_single_feed.py

当我运行上面的代码时，我得到 5 步/秒。这比第一种方法快 5 倍。这是我不明白的，因为从理论上讲，由于数据批次的额外序列化/反序列化，第二个应该更慢。

Thanks!

目前（从 TensorFlow 1.9 开始）使用时存在性能问题tf.data映射和批处理具有大量特征且每个特征具有少量数据的张量。该问题有两个原因：

The dataset.map(parse_tfrecord, ...)转换将执行 O(batch_size * num_columns）创建批次的小操作。相比之下，喂养tf.placeholder() to tf.parse_example()将执行 O(1) 操作来创建相同的批次。
批量多tf.SparseTensor对象使用dataset.batch()比直接创建相同的要慢得多tf.SparseTensor作为输出tf.parse_example().

对这两个问题的改进正在进行中，并且应该会在 TensorFlow 的未来版本中提供。同时，您可以提高性能tf.data基于管道通过切换顺序dataset.map() and dataset.batch()并重写dataset.map()处理字符串向量，例如基于喂食的版本：

dataset = tf.data.TFRecordDataset(data_file)
dataset = dataset.prefetch(buffer_size=batch_size*10)
dataset = dataset.repeat(num_epochs)

# Batch first to create a vector of strings as input to the map(). 
dataset = dataset.batch(batch_size)

def parse_tfrecord_batch(record_batch):
  features = tf.parse_example(
      record_batch,
      features=tf.feature_column.make_parse_example_spec(
          columns + [
              tf.feature_column.numeric_column(
                  'label', dtype=tf.float32, default_value=0)]))
  labels = features.pop('label')
  return features, labels

# NOTE: Parallelism might not be as useful, because the individual map function now does
# more work per invocation, but you might want to experiment with this.
dataset = dataset.map(parse_tfrecord_batch)

# Add a prefetch at the end to pipeline execution.
dataset = dataset.prefetch(1)

features, labels = dataset.make_one_shot_iterator().get_next()    
# ...

编辑 (2018/6/18): 回答一下评论里的问题：

Why is dataset.map(parse_tfrecord, ...) O(batch_size * num_columns)，而不是 O(batch_size）？如果解析需要枚举列，为什么 parse_example 不采用 O(num_columns)?

当您将 TensorFlow 代码包装在Dataset.map()（或其他函数转换）每个输出的恒定数量的额外操作被添加到函数的“返回”值中，并且（在tf.SparseTensor值）将它们“转换”为标准格式。当你直接传递输出时tf.parse_example()对于模型的输入，不会添加这些操作。虽然它们都是非常小的操作，但执行如此多的操作可能会成为瓶颈。（从技术上讲，解析does take O(batch_size * num_columns) time，但解析中涉及的常量比执行操作要小得多。）

为什么要在管道末尾添加预取？

当您对性能感兴趣时，这几乎总是最好的选择，并且它应该提高管道的整体性能。有关最佳实践的更多信息，请参阅性能指南tf.data.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

tensorflow

tensorflowdatasets

使用 feed_dict 比使用数据集 API 快 5 倍以上？的相关文章

张量流中有哪些资产？

我正在阅读有关保存和恢复模型的张量流教程并遇到以下声明 If assets need to be saved and written or copied to disk they can be provided when the firs
监控培训课程如何运作？

我试图理解使用之间的区别tf Session and tf train MonitoredTrainingSession 以及我可能更喜欢其中之一似乎当我使用后者时我可以避免许多杂务例如初始化变量启动队列运行程序或设置文件编写器以
Keras 中的条件批量归一化

我正在尝试在 Keras 中实现条件批量标准化我假设我必须创建一个自定义层因此我从正常化 https github com keras team keras blob master keras layers normalization
如何使用 Keras 中的 Conv2D 在 5D 张量的最后三个维度上应用卷积？

通常的输入张量Conv2DKeras 中是一个 4D 张量其维度为batch size n n channel size 现在我有一个 5D 张量其尺寸为batch size N n n channel size我想对中的每个 i 应用
支持 Nvidia CUDA 工具包 9.2

Tensorflow gpu 绑定到 Nvidia CUDA Toolkit 的特定版本的原因是什么当前版本似乎专门寻找 9 0 并且不适用于任何更高版本例如我安装了最新的 Toolkit 9 2 并将其添加到路径中但 Tensor
从 [tensorflow 1.00] 中的 softmax 层提取概率

使用张量流我有一个 LSTM 分类模型以 softmax 作为最终节点这是我的 softmax 层 with tf name scope Softmax as scope with tf variable scope Softmax
具有高级计算功能的 Keras 自定义层

我想写一些自定义的Keras分层并在层中进行一些高级计算例如使用 Numpy Scikit OpenCV 我知道有一些数学函数keras backend可以对张量进行操作但我需要一些更高级的功能但是我不知道如何正确实现这一点我收到
Tensorflow GPU 设置：PyCharm 上的 CUDA 错误

我在 Python3 MacOSX El Capitan 上安装了 TF 0 8 当为 TF 运行简单的测试代码时我收到以下消息 ImportError dlopen Library Frameworks Python framework
在 Tensorflow 对象检测 API 中将图像裁剪到边界框

如何将图像裁剪到 Tensorflow 中的边界框我正在使用Python API 从文档来看 tf image crop to bounding box image offset height offset width target he
用于测试张量流安装的速度基准

我怀疑我的 GPU 机器上是否正确配置了张量流因为在我精美的 GPU 机器上训练一个简单的线性回归模型批量大小 32 1500 个输入特征 150 个输出变量的每次迭代速度比在笔记本电脑上慢 100 倍我使用的是 Titan X 配
Tensorflow 对象检测 API 无效参数：元组组件 16 中的形状不匹配。预期为 [1,?,?,3]，得到 [1,182,322,4]

这是来自的后续问题这个 Github 问题 https github com tensorflow tensorflow issues 13044 长话短说我尝试将 Tensorflow 对象检测 API 与我自己的数据集结合使用一切都
如何在 Tensorflow 中使用预训练的 Word2Vec 模型

我有一个Word2Vec训练过的模型Gensim 我如何使用它Tensorflow for Word Embeddings 我不想在 Tensorflow 中从头开始训练嵌入有人可以告诉我如何用一些示例代码来做到这一点吗假设您有一个字典
Tensorflow：尽管数据中没有字符串，但使用 tflearn 时不支持将字符串转换为浮点数错误

我似乎无法在我的代码中找到错误其中有任何字符串被错误地转换为浮点数但它却给了我这个错误 W tensorflow core framework op kernel cc 958 Unimplemented Cast string to
从字符串列表创建 TfRecords 并在解码后在张量流中提供图形

目的是创建 TfRecords 数据库给定我有 23 个文件夹每个文件夹包含 7500 个图像以及 23 个文本文件每个文件有 7500 行描述单独文件夹中 7500 个图像的特征我通过以下代码创建了数据库 import ten
有没有办法在bigquery中使用kmeans、tensorflow保存的模型？

我知道这有点愚蠢因为 BigQueryML 现在为 Kmeans 提供了良好的初始化尽管如此我还是需要在张量流中训练一个模型然后将其传递给 BigQuery 进行预测我保存了模型一切正常直到我尝试将其上传到 bigquery
需要 TensorFlow 依赖项。如何在 Windows 上运行 TensorFlow

我有兴趣让 TensorFlow 在 Windows 上运行但目前我意识到这是不可能的因为某些依赖项无法在 Windows 上使用例如巴泽尔之所以出现这种需求是因为据我目前了解从 TensorFlow 访问 GPU 的唯一方法是
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
如何在 py_function 之后重塑（图像，标签）数据集

我正在尝试读取自定义映射数据集进行训练但是在使用 py function 映射数据集后我得到了未知的形状例如 def process path file path label get label file path img tf io
GPU 上的张量流：尽管 cuda 的 deviceQuery 返回“PASS”结果，但没有已知设备

注这个问题最初是在github上问的 https github com tensorflow tensorflow issues 7648 issuecomment 280866214 但被要求改为在这里我在 GPU 上运行 Tenso
无法使用 tf.data.Dataset 对组件 0 中具有不同形状的张量进行批处理

我的输入管道中出现以下错误 tensorflow python framework errors impl InvalidArgumentError 不能分量 0 中具有不同形状的批量张量第一个元素有形状为 2 48 48 3 元素

随机推荐

如何获取 pyspark 中 groupBy 之后每个计数的总数百分比？

给定以下数据框 import findspark findspark init from pyspark sql import SparkSession spark SparkSession builder master local app
不再能够创建 bacpac：SQL70015：SQL Azure 上不支持已弃用的功能“字符串文字作为列别名”

今天我们遇到了一个严重错误我们无法再为实时 Azure 生产数据库创建 bacpac 文件到目前为止一切正常突然我们开始遇到以下错误服务操作期间遇到错误无法从指定数据库提取包错误 SQL70015 SQL Azure 不支持已弃
为什么 onResume() 似乎被调用了两次？

我在这里有我的活动课程 public class CameraActivity extends Activity private Camera mCamera private CameraPreview mPreview public vo
如何在 mayavi2 中缩放 x 轴和 y 轴？

我想使用 mayavi mlab surf 用 mayavi2 绘制 3 d 绘图该函数有一个名为 warp scale 的参数可用于缩放 z 轴我正在寻找类似的东西但适用于 x 和 y 轴我可以通过将 x 和 y 数组相乘然后
python 中数组的导数？

目前我有两个 numpy 数组 x and y大小相同我想编写一个函数可能调用 numpy scipy 函数如果存在的话 def derivative x y n 1 something return result where res
m 的静态声明位于非静态声明之后

我正在尝试一个小例子来了解静态外部变量及其用途静态变量是局部范围的外部变量是全局范围的静态5 c include
如何在 Chrome 扩展浏览器操作中显示 Google reCAPTCHA v2？

我正在构建一个 Chrome 扩展程序它与我希望使用 Google recatcha 保护的 API 进行交互因为我打算让它在 Chrome 扩展程序之外使用 API 端正在工作正确验证了 Google 的 recapcha 响应但
SerialVersionUID 是如何计算的

当我在 Eclipse 中创建 Java 类时它实现了Serializable界面我收到警告可序列化类 ABCD 未声明静态final long 类型的serialVersionUID 字段因此当我单击警告时我会在 Eclips
从具有自定义字段的表单创建 mailto

我有一个包含 3 个字段姓名电子邮件和消息的 HTML 表单我想使用这 3 个字段创建自定义 mailto 但我不想创建如下所示的固定内容 a href Send a mail a 这可能吗如果不是我是否有其他方法来制作简单的处
使用 npm 安装 bcrypt 时出错

我无法安装bcrypt using npm在我的机器上因为我遇到以下错误我一直在解决这个问题但运气不佳您能否建议任何步骤来诊断或解决问题以便我可以运行npm install bcrypt成功地 Someones Macbook n
如何以编程方式（合法地）获取街道地址的经度和纬度

据说可以从谷歌地图或某些此类服务中获取此信息仅美国地址是不够的您正在寻找的术语是地理编码是的谷歌确实提供了这项服务新的V3 API http code google com apis maps documentation geo
如何追踪这个？ AttributeError：“NoneType”对象在 makemigrations 期间没有属性“is_relation”

自昨天以来我第二次遇到令人困惑的错误上次我只是扁平化了整个迁移但我从未真正找到导致问题的原因所以当我尝试为我的 python 项目进行迁移时就会出现这种情况我应该在哪里寻找错误我觉得这实际上与迁移无关而是与views py或mo
“核心语言”是什么意思？

在表中关于这一页从 GCC 文档来看其中一项大约在表格的中间仅被列为核心语言这意味着什么语言的哪些部分不会被包括在内标准库是该语言的一部分为了表达仅与语法规则语义规则等相关但与库无关的语言子集人们使用术语核心语言例如
如何从 Android 手机获取时区？

我想在单击按钮时从 Android 手机获取时区您是否尝试过使用TimeZone getDefault 大多数应用程序都会使用时区 getDefault 它返回一个基于时区的程序运行所在的时区 Ref http developer an
Django仅在生产环境中使用私有S3存储

我已将 django REST API 设置为在调试模式下使用本地存储在生产环境中使用 S3 存储这对于公共文件很有效因为我覆盖了DEFAULT FILE STORAGE像这样 if IS DEBUG DEFAULT FILE STO
接受多个 Id 值的 T-SQL 存储过程

有没有一种优雅的方法来处理将 id 列表作为参数传递给存储过程例如我希望我的存储过程返回部门 1 2 5 7 20 过去我传递了一个逗号分隔的 id 列表如下面的代码但感觉这样做真的很脏我认为 SQL Server 2005 是
.NET 中的 C# 类何时调用析构函数？

比如说我有自己的 C 类定义如下 public class MyClass public MyClass Do the work MyClass Destructor 然后我从 ASP NET 项目创建类的实例如下所示 if true
Google Chrome .dev 无法通过 http 工作 [重复]

这个问题在这里已经有答案了自上次更新以来谷歌浏览器 63 0 3239 84 the dev我的本地开发计算机的域不再工作因为浏览器强制 URL 通过 https 并且我的本地计算机上没有 sicure 证书有没有办法让它与 dev
64 位 iOS 设备上的 asm("trap")

在我自己开发的断言宏中我一直在 iOS 设备上使用 asm trap 或在 iOS 模拟器上使用 asm int3 来中断调试器然而在设备的 64 位版本中我得到了陷阱指令的无法识别的指令助记符有与arm64相当的吗像 bui
使用 feed_dict 比使用数据集 API 快 5 倍以上？

我创建了一个 TFRecord 格式的数据集进行测试每个条目包含 200 列名为C1 C199 每个都是一个字符串列表和一个label列来表示标签创建数据的代码可以在这里找到 https github com codescv tf

使用 feed_dict 比使用数据集 API 快 5 倍以上？

使用 feed_dict 比使用数据集 API 快 5 倍以上？ 的相关文章

随机推荐

热门标签

使用 feed_dict 比使用数据集 API 快 5 倍以上？的相关文章