为什么我的 TFRecord 文件比 csv 大很多？

2024-01-07

我一直认为作为二进制格式，TFRecord https://www.tensorflow.org/api_guides/python/python_io#tfrecords_format_details与人类可读的 csv 相比，占用的空间更少。但当我尝试比较它们时，我发现事实并非如此。

例如我在这里创建一个num_rows X 10矩阵与num_rows标签并将其另存为 csv。我通过将其保存到 TFRecors 来执行相同的操作：

import pandas as pd
import tensorflow as tf
from random import randint

num_rows = 1000000
df = pd.DataFrame([[randint(0,300) for r in xrange(10)] + [randint(0, 1)] for i in xrange(num_rows)])

df.to_csv("data/test.csv", index=False, header=False)

writer = tf.python_io.TFRecordWriter('data/test.bin')
for _, row in df.iterrows():
    arr = list(row)
    features, label = arr[:-1], arr[-1]
    example = tf.train.Example(features=tf.train.Features(feature={
        'features' : tf.train.Feature(int64_list=tf.train.Int64List(value=features)),
        'label':     tf.train.Feature(int64_list=tf.train.Int64List(value=[label])),
    }))
    writer.write(example.SerializeToString())
writer.close()

创建二进制文件不仅比 csv 花费更多的时间（2 秒 VS 1 分 50 秒），而且使用的空间几乎多出 2 倍（38Mb VS 67.7Mb）。

我做得正确吗？如何使输出文件更小（锯TFRecord压缩类型 https://www.tensorflow.org/api_docs/python/tf/python_io/TFRecordCompressionType），但是我还能做些什么吗？尺寸更大的原因是什么？

Vijay 对 int64 的评论有道理，但仍然不能回答所有问题。 Int64 消耗 8 个字节，因为我将数据存储在 csv 中，整数的字符串表示形式的长度应该是 8。所以如果我这样做df = pd.DataFrame([[randint(1000000,99999999) for r in xrange(10)] for i in xrange(num_rows)])我还是买了一个稍微大一点的尺寸。现在是 90.9Mb VS 89.1Mb。除此之外，csv 为每个整数之间的每个逗号存储 1 个字节。

文件较大的事实是由于 TFRecords 每行的开销，特别是每次都存储标签名称的事实。

在您的示例中，如果增加特征数量（从 10 个增加到 1000 个），您会发现 tfrecord 文件实际上大约是 csv 大小的一半。

此外，整数存储在 64 位上的事实最终是无关紧要的，因为序列化使用“varint”编码，该编码取决于整数的值，而不是其初始编码。以上面的示例为例，不要使用 0 到 300 之间的随机值，而是使用常量值 300：您将看到文件大小增加。

请注意，用于编码的字节数并不完全是整数本身的字节数。因此，值 255 仍需要两个字节，但值 127 将占用一个字节。有趣的是，负值会带来巨大的损失：无论如何，都需要 10 个字节的存储空间。

值和存储需求的对应关系可以在protobufs函数中找到_SignedVarintSize https://github.com/google/protobuf/blob/2f4489a3e504e0a4aaffee69b551c6acc9e08374/python/google/protobuf/internal/encoder.py#L96.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

tensorflow

为什么我的 TFRecord 文件比 csv 大很多？的相关文章

无法从 DenseVariational 获得合理的结果

我正在尝试使用以下大小的数据集正弦曲线进行回归问题500 首先我尝试使用 2 个密集层每个层有 10 个单元 model tf keras Sequential tf keras layers Dense 10 activation
如何保存 Tensorflow.js 模型？

我想制作一个创建保存和训练 tensorflow js 模型的用户界面但我无法在创建模型后保存模型我什至从tensorflow js文档复制了这段代码但它不起作用 const model tf sequential layers t
监控培训课程如何运作？

我试图理解使用之间的区别tf Session and tf train MonitoredTrainingSession 以及我可能更喜欢其中之一似乎当我使用后者时我可以避免许多杂务例如初始化变量启动队列运行程序或设置文件编写器以
如何正确将 tflite_graph.pb 转换为 detector.tflite

我正在使用tensorflow对象检测API使用tensorflow中的ssdlite mobilenet v2 coco 2018 05 09来训练自定义模型模型动物园 https github com tensorflow models
调用 tf.linalg.inv 时，TensorFlow 崩溃并显示无法创建 cuSolverDN 实例

我正在运行tensorflow tensoflow latest gpu码头集装箱我可以运行简单的向量运算例如矩阵乘法没有问题但是当我运行以下最小示例时 import tensorflow as tf tf linalg inv
如何访问 tf.layers.conv2d 中的内核变量？

我想可视化卷积层中的权重以观察它们如何变化但我找不到一种方法来访问卷积层中的权重tf layers conv2d 谢谢您可以通过名称访问该变量 weights sess run
Tensorflow推荐的系统规格？

我开始在我的 RHEL 6 5 机器上安装 Tensorflow 但事实证明 Tensorflow 需要 glibc gt 2 17 而 rhel 6 5 上默认的 glibc 是 2 12 我想知道是否有人可以帮助我了解张量流的最低推荐
Tensorflow GPU 设置：PyCharm 上的 CUDA 错误

我在 Python3 MacOSX El Capitan 上安装了 TF 0 8 当为 TF 运行简单的测试代码时我收到以下消息 ImportError dlopen Library Frameworks Python framework
在 Tensorflow 对象检测 API 中将图像裁剪到边界框

如何将图像裁剪到 Tensorflow 中的边界框我正在使用Python API 从文档来看 tf image crop to bounding box image offset height offset width target he
Tensorflow图像读取空

这个问题是基于 Tensorflow图像读取与显示 https stackoverflow com questions 33648322 tensorflow image reading display 根据他们的代码我们得到以下内容 s
tf.gfile 在 TensorFlow 中起什么作用？

我见过人们使用以下几个函数tf gfile例如tf gfile GFile or tf gfile Exists 我有一个想法tf gfile处理文件但是我无法找到官方文档来了解它还提供了什么如果你能帮我的话那就太好了对于登陆这里的
Tensorflow新Op CUDA内核内存管理

我已经使用 GPU CUDA 内核在 Tensorflow 中实现了一个相当复杂的新 Op 该操作需要大量动态内存分配这些变量不是张量并且在操作完成后被释放更具体地说它涉及使用哈希表现在我正在使用cudaMalloc and cu
将 Pytorch 模型 .pth 转换为 onnx 模型

我有一个预训练的模型其格式为 pth 扩展名我想将其转换为 Tensorflow protobuf 但我没有找到任何方法来做到这一点我见过 onnx 可以将模型从 pytorch 转换为 onnx 然后从 onnx 转换为 Tenso
有没有办法在bigquery中使用kmeans、tensorflow保存的模型？

我知道这有点愚蠢因为 BigQueryML 现在为 Kmeans 提供了良好的初始化尽管如此我还是需要在张量流中训练一个模型然后将其传递给 BigQuery 进行预测我保存了模型一切正常直到我尝试将其上传到 bigquery
无需安装 Tensorflow 即可服务 Tensorflow 模型

我有一个经过训练的模型想在 python 应用程序中使用但我看不到任何在不安装 TensorFlow 或创建 gRPC 服务的情况下部署到生产环境的示例有可能吗在这种情况下正确的做法是什么如果不使用 TensorFlow 本身或
如何在 py_function 之后重塑（图像，标签）数据集

我正在尝试读取自定义映射数据集进行训练但是在使用 py function 映射数据集后我得到了未知的形状例如 def process path file path label get label file path img tf io
如何在 Tensorflow Keras 中规范化我的图像数据

如前所述我正在尝试在训练模型之前标准化我的数据集我正在使用tf keras preprocessing image ImageDataGenerator之前执行此操作 train data tf cast train data tf f
从 swift 数组创建张量

这工作正常 import TensorFlow var t Tensor
具有动态 num_partitions 的动态分区

变量num partitions在方法中tf dynamic partition不是一个Tensor 但是一个int 因此如果事先不知道分区的数量则无法通过计算唯一值的数量等方式从数据中推断出分区的数量也无法通过tf placehol
我无法使用 scikeras.wrappers.KerasRegressor 执行 cross_val_score

from tensorflow import keras from sklearn model selection import cross val score from sklearn datasets import make regre

随机推荐

表示分数的数学符号是什么？

我想展示2 3 即 2 除以 3 以 HTML 格式我不想使用使用 HTML 格式化分数除法的正确符号是什么从您的评论来看您似乎是专门询问如何显示分数如果是这样的话许多分数被定义为 HTML 实体例如其中一些实体是 fra
如何在 ChartJS 中单击时获取活动标签元素？

我使用 ChartJS 创建了一个饼图现在我想创建一个单击处理程序在其中我可以获取已创建的图表部分的标签和值我该如何实现这一目标 let my chart new Chart tot pop chart type pie data l
Android 上有类似 BeautifulSoup 的东西吗？ [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我想找到一个非常宽容的 xml 解析
NestJs - 无法在 RolesGuard 中获取用户上下文

我使用 NestJS 作为客户端 API 的框架在该框架内我们使用了一个非常标准的 Passport JWT 身份验证基础设施该基础设施运行良好当找到不记名令牌时我们的 AuthGuard 就会触发并且在安全 API 端点中我
需要 awk 数组帮助 - 求平均值

这是我尝试操作的数据类型的示例 1213954013615 992 1213954013615 993 1213954013615 994 1213954013615 995 1213954013615 995 1213954013615
一个 React 组件是否可以有两种状态

我正在尝试构建一个简单的单位转换器来练习 React js 我希望能够更改一个单位的值例如公斤并让另一个单位例如磅在屏幕上自动更改请查看这个网站给您一个想法 http www convertunits com from lb to
如何以编程方式在 TTS android 中设置泰米尔语语音？

Example 英语 tts speak Welcome rubin TextToSpeech QUEUE ADD null 它可以在美国语音中正确地说英语 Hindi for Voice voice voices Log v TAG vo
BizTalk 强制创建空元素而不使用 xslt 调用模板

当源元素不存在时 BizTalk 映射中是否有强制创建目标元素而不使用 xslt 调用模板我将父子 xml 映射到 wcf sql 适配器生成的架构该架构具有用于存储过程参数的表值参数所以我的源xml是
如何使用 AJAX 将 jQuery 变量传递到 PHP 页面

尝试使用 jQuery ajax 将变量 flickrurl 传递到 PHP 页面它在使用纯文本字符串而不是变量时有效我是否正确分配了变量请在此处查看完整的实际代码 http www fletcherboland com fb 4 t
R rlm 模型错误：“x”是单数：“rlm”中未实现奇异拟合

我在 R 中有两个列表 y c 420 5568 693 6305 420 5568 946 9677 499 1046 946 9677 x c 32 29 32 27 31 27 我正在尝试使这些数据适合rlm使用此代码的模型 fit
如何在Android Wear上创建圆形视图？

如何像 Android Wear 2 0 中那样为圆形手表创建循环列表像这样在 Android Wear 应用程序启动器中可以看到循环列表首先您需要将 ListView 替换为可穿戴回收器视图它可以像普通的 ListView 一样
为什么 moveBy 和 moveTo 在我的代码中不起作用？

我认为这是一个简单的问题但我是 JavaScript 新手当我尝试 moveBy 或 moveTo 新窗口时为什么按钮 but3 和 but4 不起作用 thanks HTML代码
我如何在Java中将形状的ArrayList拆分为分区/列表（只是建议）

我只是想要关于如何做到这一点的建议或建议我已经想了好几个小时了但找不到解决方案我的目标是将这个 ER 图转换为表格 So i have a Rectangle Entity that is linked to an ellipse A
如何在 ggplot2 森林图中添加聚类水平线？

我即将完成森林概要图下面包含代码和绘图的图像最后一个不错的步骤是将某些行聚集在一起例如 1 4 年级的条形图应聚集在一起并用空格将它们与总计和男性分开本质上所有相同颜色的条形图应聚集在一起并与其他条形图分开我已经为此苦
如何在 .NET 中连接到 USB 网络摄像头？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我想连接到 NET 中的 USB 网络摄像头特别是使用 C 作为 NET 的新手我不知道标准库对此有
PLSQL：可以在 SQLPLUS 中使用 BOOLEAN 数据类型吗？ [复制]

这个问题在这里已经有答案了可能的重复如何在 SELECT 语句中使用 BOOLEAN 类型 https stackoverflow com questions 1465405 how to use boolean type in sel
如何创建一个包含列名称的空数据表，然后将数据表附加到其中？

首先我想创建一个带有列名的空数据表但失败了 data lt data table va vb vc gt Error in data table va vb vc object va not found 其次我想将数据表附加到它但它
如何在 SiteMinder 中启用对网站部分内容的匿名访问

我们的网站使用 SiteMinder 安全代理问题是我们网站的某些部分需要匿名身份验证例如 ClickOnce 安装程序和一些 WCF 服务我正在调查proxyrules xml 希望我能做点什么nete case 但事实似乎并非如此
使用较新版本时是否可以使用较旧的 SIMD 版本？

当我可以使用 SSE3 或 AVX 时旧的 SSE 版本如 SSE2 或 MMX 是否可用或者我还需要单独检查它们吗一般来说这些都是附加的但请记住多年来英特尔和 AMD 对这些的支持之间存在差异如果您有 AVX 那么您也可以
为什么我的 TFRecord 文件比 csv 大很多？

我一直认为作为二进制格式 TFRecord https www tensorflow org api guides python python io tfrecords format details与人类可读的 csv 相比占用的空间更少

为什么我的 TFRecord 文件比 csv 大很多？

为什么我的 TFRecord 文件比 csv 大很多？ 的相关文章

随机推荐

热门标签

为什么我的 TFRecord 文件比 csv 大很多？的相关文章