具有非常大的 HDF5 文件的 Tensorflow-IO 数据集输入管道

2023-12-23

我有非常大的训练（30Gb）文件。
由于我的可用 RAM 无法容纳所有数据，因此我想批量读取数据。
我看到有 Tensorflow-io 包实施了一种方式 https://www.tensorflow.org/io/api_docs/python/tfio/IODataset#from_hdf5借助该函数，可以通过这种方式将 HDF5 读入 Tensorflowtfio.IODataset.from_hdf5()
然后，自从tf.keras.model.fit()需要一个tf.data.Dataset作为包含样本和目标的输入，我需要将 X 和 Y 压缩在一起，然后使用.batch and .prefetch仅将必要的数据加载到内存中。为了进行测试，我尝试将此方法应用于较小的样本：训练（9Gb）、验证（2.5Gb）和测试（1.2Gb），我知道它们效果很好，因为它们可以放入内存中，并且我得到了很好的结果（70％的准确度和训练文件存储在 HDF5 文件中，分为样本 (X) 和标签 (Y) 文件，如下所示：

X_learn.hdf5  
X_val.hdf5  
X_test.hdf5  
Y_test.hdf5  
Y_learn.hdf5  
Y_val.hdf5

这是我的代码：

BATCH_SIZE = 2048
EPOCHS = 100

# Create an IODataset from a hdf5 file's dataset object  
x_val = tfio.IODataset.from_hdf5(path_hdf5_x_val, dataset='/X_val')
y_val = tfio.IODataset.from_hdf5(path_hdf5_y_val, dataset='/Y_val')
x_test = tfio.IODataset.from_hdf5(path_hdf5_x_test, dataset='/X_test')
y_test = tfio.IODataset.from_hdf5(path_hdf5_y_test, dataset='/Y_test')
x_train = tfio.IODataset.from_hdf5(path_hdf5_x_train, dataset='/X_learn')
y_train = tfio.IODataset.from_hdf5(path_hdf5_y_train, dataset='/Y_learn')
 
# Zip together samples and corresponding labels
train = tf.data.Dataset.zip((x_train,y_train)).batch(BATCH_SIZE, drop_remainder=True).prefetch(tf.data.experimental.AUTOTUNE)
test = tf.data.Dataset.zip((x_test,y_test)).batch(BATCH_SIZE, drop_remainder=True).prefetch(tf.data.experimental.AUTOTUNE)
val = tf.data.Dataset.zip((x_val,y_val)).batch(BATCH_SIZE, drop_remainder=True).prefetch(tf.data.experimental.AUTOTUNE)

# Build the model
model = build_model()
 
# Compile the model with custom learing rate function for Adam optimizer
model.compile(loss='categorical_crossentropy',
               optimizer=Adam(lr=lr_schedule(0)),
               metrics=['accuracy'])

# Fit model with class_weights calculated before
model.fit(train,
          epochs=EPOCHS,
          class_weight=class_weights_train,
          validation_data=val,
          shuffle=True,
          callbacks=callbacks)

这段代码可以运行，但损失非常高（300+），并且准确度从一开始就下降到 0（0.30 -> 4*e^-5）...我不明白我做错了什么，我错过了吗某物？

在这里提供解决方案（答案部分），即使它出现在评论部分中也是为了社区的利益。

代码没有问题，它实际上与数据有关（未正确预处理），因此模型无法很好地学习，这会导致奇怪的损失和准确性。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

具有非常大的 HDF5 文件的 Tensorflow-IO 数据集输入管道的相关文章

使用 SQLAlchemy 时出现“NoneType”对象没有属性“get”错误

我一直在尝试使用 SQLAlchemy 将对象映射到数据库但遇到了障碍 Edit Basically changed a whole bunch of stuff 版本信息如果方便的话操作系统 Mac OSX 10 5 8 Pytho
Python 和图形数据库。使用 java lib 包装器还是 REST api？

我想问你在Python中使用图数据库 Neo4j 的最佳方法你觉得我应该使用 neo4j python embedded neo4j python 嵌入式 http docs neo4j org chunked milestone pyt
Keras 模型无法预测是否在线程中调用

我尝试在线程应用程序中使用 keras 和可用模型 VGG16 执行预测但是如果我在主线程中调用预测一切都会正常但是如果我在线程函数内部进行预测无论我使用threading multiprocessing 它只是在预测过程中停止
使用 psycopg2 在 python 中执行查询时出现“编程错误：语法错误位于或附近”

我正在运行 Python v 2 7 和 psycopg2 v 2 5 我有一个 postgresql 数据库函数它将 SQL 查询作为文本字段返回我使用以下代码来调用该函数并从文本字段中提取查询 cur2 execute SELECT
将 Matplotlib 误差线放置在不位于条形中心的位置

我正在 Matplotlib 中生成带有错误栏的堆积条形图不幸的是某些层相对较小且数据多样因此多个层的错误条可能重叠从而使它们难以或无法读取 Example 有没有办法设置每个误差条的位置即沿 x 轴移动它以便重叠的线显示在彼此
为 Anaconda Python 安装 psycopg2

我有 Anaconda Python 3 4 但是每当我运行旧代码时我都会通过输入 source activate python2 切换到 Anaconda Python 2 7 我的问题是我为 Anaconda Python 3 4 安
使用带有关键字参数的 map() 函数

这是我尝试使用的循环map功能于 volume ids 1 2 3 4 5 ip 172 12 13 122 for volume id in volume ids my function volume id ip ip 我有办法做到这一点
Django：按钮链接

我是一名 Django 新手用户尝试创建一个按钮单击该按钮会链接到我网站中的另一个页面我尝试了一些不同的例子但似乎没有一个对我有用举个例子为什么这不起作用
Python - StatsModels、OLS 置信区间

在 Statsmodels 中我可以使用以下方法拟合我的模型 import statsmodels api as sm X np array 22000 13400 47600 7400 12000 32000 28000 31000 6
Flask 会话变量

我正在用 Flask 编写一个小型网络应用程序当两个用户在同一网络下尝试使用应用程序时我遇到会话变量问题这是代码 import os from flask import Flask request render template
如何使用Conda下载python包并随后离线安装？

我知道通过 pip 我可以使用以下命令下载 Python 包但 pip install 破坏了我的内部包依赖关系当我做 pip download
如何替换 pandas 数据框列中的重音符号

我有一个数据框dataSwiss其中包含瑞士城市的信息我想用普通字母替换带有重音符号的字母这就是我正在做的 dataSwiss Municipality dataSwiss Municipality str encode utf 8 d
python 相当于 R 中的 get() （= 使用字符串检索符号的值）

在 R 中 get s 函数检索名称存储在字符变量向量中的符号的值s e g X lt 10 r lt XVI s lt substr r 1 1 X get s 10 取罗马数字的第一个符号r并将其转换为其等效整数尽管花了一些时间翻
Python pickle：腌制对象不等于源对象

我认为这是预期的行为但想检查一下也许找出原因因为我所做的研究结果是空白我有一个函数可以提取数据创建自定义类的新实例然后将其附加到列表中该类仅包含变量然后我使用协议 2 作为二进制文件将该列表腌制到文件中稍后我重新运行脚本
OpenCV 无法从 MacBook Pro iSight 捕获

几天后我无法再从 opencv 应用程序内部打开我的 iSight 相机 cap cv2 VideoCapture 0 返回并且cap isOpened 回报true 然而 cap grab 刚刚返回false 有任何想法吗示例代码
Python 函数可以从作用域之外赋予新属性吗？

我不知道你可以这样做 def tom print tom s locals locals def dick z print z name z name z guest Harry print z guest z guest print di
如何加速Python中的N维区间树？

考虑以下问题给定一组n间隔和一组m浮点数对于每个浮点数确定包含该浮点数的区间子集这个问题已经通过构建一个解决区间树 https en wikipedia org wiki Interval tree 或称为范围树或线段树已经针对一
绘制方程

我正在尝试创建一个函数它将绘制我告诉它的任何公式 import numpy as np import matplotlib pyplot as plt def graph formula x range x np array x rang
如何在Python中获取葡萄牙语字符？

我正在研究葡萄牙语角色看起来很奇怪我怎样才能解决这个问题代码 import feedparser import random Vou definir os feeds feeds conf feedurl http pplware s
添加不同形状的 numpy 数组

我想添加两个不同形状的 numpy 数组但不进行广播而是将缺失值视为零可能最简单的例子是 1 2 3 2 gt 3 2 3 or 1 2 3 2 1 gt 3 2 3 1 0 0 我事先不知道形状我正在弄乱每个 np shape

随机推荐

如何绑定到 SwiftUI 中可选的数据

我很好奇我们如何指定对属于可选部分的状态数据的绑定例如 struct NameRecord var name var isFunny false class AppData ObservableObject Published var
使用 SSZipArchive 解压缩文件 - Swift

我正在尝试使用 SSZipArchive 框架解压缩文件 let unzipper SSZipArchive unzipFileAtPath String document toDestination String documentsUrl
PyQt 打印原始 PDF

假设我有一个test pdf文件在当前目录中我想使用以下命令将此原始文件发送到打印机PyQt 图形用户界面打印机下面的Python3代码打印PDF源代码我不希望 Qt 为我构建 PDF 而只是使用 gui 对话框将其发送到打印机这应
NVidia CUDA 工具包 7.5.27 无法在 OS X 上安装

下载 CUDA 工具包 DMG 可以工作但安装程序在选择软件包后失败并出现神秘的软件包清单解析错误错误使用内部二进制文件从命令行运行安装程序也会以类似的方式失败 var log cuda installer log 处的日志文件基
JavaScript 数组问题

好的我只是回顾一下 JavaScript 中的一些基本编程原则我是编程新手所以请耐心等待下面是我遇到问题的代码特别注意数组的字符串组件 var name new Array var sales new Array var tota
如何突出显示列中非空白的重复项？

我想突出显示 I 列中连接字符串的所有重复项并在突出显示任何重复项时提供错误消息但是该列中有几个空白单元格我不希望在运行宏时这些单元格显示为重复项我从这里得到了这个代码 Sub HighlightDuplicateValues D
没有编译器优化的 SSE 内在函数

我是 SSE 内在函数的新手并尝试通过它来优化我的代码这是我的程序用于计算等于给定值的数组元素我将代码更改为 SSE 版本但速度几乎没有改变我想知道我是否以错误的方式使用SSE 此代码用于不允许我们启用编译器优化选项的分配无
当从 C# 程序中反序列化 JSON 时，我是否需要使用 JavaScriptSerializer 以外的任何东西？

NET 中提供了 JavaScriptSerializer 类 System Web Script Serialization 命名空间在 System Web Extensions dll 中提供它最初旨在支持 AJAX Web 服务
如何使用通配符设置docker的NO_PROXY

正如 docker 官方文档中提到的here https docs docker com config daemon systemd configure where the docker daemon listens for connect
flatMap API 合约如何将可选输入转换为非可选结果？

这是 Swift 3 0 2 中 flatMap 的合约 public struct Array
从 Unity 中的 Android Studio 读取意图

我有一个 Unity 游戏导出到 Android Studio 中我有一个已保存游戏的列表其中存储了玩家玩的每个游戏的最后一个场景基本上存储玩家的进度从 Unity 到 Android Studio 播放的最后一个场景的编写效果非常
Delphi 应用程序的插件系统 - bpl 与 dll？

我正在编写delphi应用程序它应该具有加载插件的能力我使用 JvPluginManager 作为插件系统管理器现在在新的插件向导中他们说最好使用 bpl 类型插件而不是 dll 插件这个解决方案与 dll 类型插件相比有什么
增量求解有什么好处？

如果 pop 完全破坏了上下文即学到的引理增量约束求解使用堆栈的目的是什么模式理由我想如果我只有 1 个约束几个合词最好进行单个查询而不是将单独帧中的合取词堆叠到堆栈上如果我有超过 1 个约束并决定使用增量求解
如何使用 Gekko 加快优化速度？

我的计划是优化家用电池的充电和放电以最大限度地降低年底的电力成本每15分钟测量一次家庭用电量所以我在1天内有96个测量点我想优化电池 2 天的充电和放电以便第 1 天考虑到第 2 天的使用情况我编写了以下代码并且它有效 from
new 类名(). 方法名(); VS className ref = new className();

我遇到了我的同事在一个内部使用的代码eventListner 即 private void someActionPerformed java awt event ActionEvent evt new className methodNam
makefile“没有规则来创建目标”错误

我已经研究这个问题有一段时间了但仍然不知道出了什么问题我的 makefile 如下所示 F90 pgf90 NETCDF DIR opt netcdf LBS L NETCDF DIR lib lnetcdff lnetcdf INCL
通过交互和指南修改 ggplot2 中的图例

df lt data frame Depth c 1 2 3 4 5 6 7 8 Var1 as factor c rep A 4 rep B 4 Var2 as factor c rep c C D 4 Value runif 8 g l
Eclipse 给出错误“...不是链接资源的有效位置。”

当我尝试在 Eclipse 中为构建路径配置添加新的类路径变量并且我添加的路径是当前工作区是其子目录的目录时 Eclipse 给出错误 C JavaStuff is not a valid location for linked reso
WCF DataContract - 标记成员 IsRequired=false

我有一份合同如下 DataContract public class MyObj DataMember IsRequired true public string StrA get private set DataMember IsRequ
具有非常大的 HDF5 文件的 Tensorflow-IO 数据集输入管道

我有非常大的训练 30Gb 文件由于我的可用 RAM 无法容纳所有数据因此我想批量读取数据我看到有 Tensorflow io 包实施了一种方式 https www tensorflow org io api docs python

具有非常大的 HDF5 文件的 Tensorflow-IO 数据集输入管道

具有非常大的 HDF5 文件的 Tensorflow-IO 数据集输入管道 的相关文章

随机推荐

热门标签

具有非常大的 HDF5 文件的 Tensorflow-IO 数据集输入管道的相关文章