keras 对于大数据的训练,无法一次性载入内存,使用迭代器

2023-11-05

说明：我是在keras的官方demo上进行修改https://github.com/fchollet/keras/blob/master/examples/imdb_cnn.py

1、几点说明，从文件中读入数据，会降低GPU的使用率，如果能够直接将数据载入内存，GPU的使用率会比较高。下面进行对比：

全部数据载入内存,GPU的使用率：

使用队列,边读数据边进行训练：

结论：全部载入内存，GPU的使用率可以达到82%,如果边载入数据边训练,只能达到48%

2、keras 使用迭代器来实现大数据的训练,其简单的思想就是,使用迭代器从文件中去顺序读取数据。所以,自己的训练数据一定要先随机打散。因为，我们的迭代器也是每次顺序读取一个batch_size的数据进行训练。

举例如下：数据如下,前400维是特征,后一维是label

keras 官方的demo 如下:

def generate_arrays_from_file(path):
    while 1:
    f = open(path)
    for line in f:
        # create Numpy arrays of input data
        # and labels, from each line in the file
        x, y = process_line(line)
        yield (x, y)
    f.close()

model.fit_generator(generate_arrays_from_file('/my_file.txt'),
        samples_per_epoch=10000, nb_epoch=10)

说明：官方的demo还是有瑕疵的,没有实现batch_size,该demo每次只能提取一个样本。我针对上述的数据集,实现的batch_size数据提取的迭代器,代码如下：

def process_line(line):
    tmp = [int(val) for val in line.strip().split(',')]
    x = np.array(tmp[:-1])
    y = np.array(tmp[-1:])
    return x,y

def generate_arrays_from_file(path,batch_size):
    while 1:
        f = open(path)
        cnt = 0
        X =[]
        Y =[]
        for line in f:
            # create Numpy arrays of input data
            # and labels, from each line in the file
            x, y = process_line(line)
            X.append(x)
            Y.append(y)
            cnt += 1
            if cnt==batch_size:
                cnt = 0
                yield (np.array(X), np.array(Y))
                X = []
                Y = []
    f.close()

训练时候的代码如下：

model.fit_generator(generate_arrays_from_file('./train',batch_size=batch_size),
        samples_per_epoch=25024,nb_epoch=nb_epoch,validation_data=(X_test, y_test),max_q_size=1000,verbose=1,nb_worker=1)

3、关于samples_per_epoch的说明：

我的训练数据,train只有25000行,batch_size=32。照理说samples_per_epoch=32,但是会有警告.UserWarning: Epoch comprised more than `samples_per_epoch` samples, which might affect learning results

说明：这个出错的原因是train的数目/batch_size不是整数。可以将samples_per_epoch = ceil(train_num/batch_size) *batch_size.设置完的结果为88.72%：

keras的demo使用的方法是将全部数据载入进来训练:

demo的结果为88.86%，所以，该数据读取的方式基本没问题。但是，一定要将数据先进行打乱。如果能全部载入内存，就全部载入内存，速度会快不少

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

keras 对于大数据的训练,无法一次性载入内存,使用迭代器的相关文章

卷积神经网络 (CNN) 输入形状

我是 CNN 的新手我有一个关于 CNN 的问题我对 CNN 特别是 Keras 的输入形状有点困惑我的数据是不同时隙的二维数据比方说10X10 因此我有 3D 数据我将把这些数据输入到我的模型中来预测即将到来的时间段所以我
增加 sigmoid 预测输出值？

我创建了一个用于文本分类的 Conv1D 模型当在最后一个密集处使用 softmax sigmoid 时它产生的结果为 softmax gt 0 98502016 0 0149798 sigmoid gt 0 03902826 0 00
model.predict() 返回类而不是概率

Hello 我是第一次使用 Keras 我训练并保存了一个模型作为 json 文件及其权重该模型旨在将图像分为 3 个类别我的编译方法 model compile loss categorical crossentropy optim
Keras model.summary() 结果 - 了解参数数量

我有一个简单的神经网络模型用于使用 Keras Theano 后端从用 python 编写的 28x28px 图像中检测手写数字 model0 Sequential number of epochs to train for nb ep
Tensorflow 可变图像输入大小（自动编码器、放大......）

Edit WARNING不建议使用不同图像大小的图像因为张量需要具有相同的大小才能实现并行化我一直在寻找解决方案了解如何使用不同大小的图像作为神经网络的输入 Numpy 第一个想法是使用numpy 然而由于每个图像的大小不同我无法
Keras IndexError：索引超出范围

我是 Keras 新手我尝试在数据集上执行二进制 MLP 并且不断使索引超出范围但不知道为什么 from keras models import Sequential from keras layers core import Dens
Keras 错误：预计会看到 1 个数组

当我尝试在 keras 中训练 MLP 模型时出现以下错误我使用的是 keras 版本1 2 2 检查模型输入时出错您输入的 Numpy 数组列表传递给您的模型的尺寸不是模型预期的尺寸预期的查看 1 个数组但得到以下 12859
如何使用 lstm 执行多类多输出分类

I have multiclass multioutput classification see https scikit learn org stable modules multiclass html https scikit lear
无法从 DenseVariational 获得合理的结果

我正在尝试使用以下大小的数据集正弦曲线进行回归问题500 首先我尝试使用 2 个密集层每个层有 10 个单元 model tf keras Sequential tf keras layers Dense 10 activation
如何使用 Keras 中的 Conv2D 在 5D 张量的最后三个维度上应用卷积？

通常的输入张量Conv2DKeras 中是一个 4D 张量其维度为batch size n n channel size 现在我有一个 5D 张量其尺寸为batch size N n n channel size我想对中的每个 i 应用
Keras：加载多个模型并在不同线程中进行预测

我正在使用带有张量流核心的 Keras 我想在构造函数中加载 2 个不同的模型然后在不同的线程中进行预测根据请求我尝试在张量流图上下文中加载这些模型但它不起作用我的代码 from keras models import load
无法更改现有 Keras 模型中的激活

我有一个普通的 VGG16 模型relu激活即 def VGG 16 weights path None model Sequential model add ZeroPadding2D 1 1 input shape 3 224 224
使用 flow_from_dataframe y_col 的正确“值”是什么

我正在用 pandas 读取 csv 文件并给出存储在中的列名称colname colnames file label Read data from file data pd read csv Hand Annotations 2 csv
使用 Keras Tuner 调整模型时如何跳过有问题的超参数组合？

使用 Keras Tuner 时似乎没有办法允许跳过有问题的超参数组合例如 Conv1D 层中的过滤器数量可能与后续 MaxPooling1D 层中的池大小的所有值不兼容从而导致模型构建错误然而在运行调谐器之前可能不知道这一点一
batch_size = x.shape[0] AttributeError: 'tuple' 对象没有属性 'shape'

该代码结合图像和掩模进行图像检测我怎样才能纠正这个错误 batch size x shape 0 AttributeError tuple 对象没有属性 shape 这是用于训练的代码 train datagen ImageDataGen
AttributeError：模块“tensorflow.python.framework.ops”没有属性“RegisterShape”

我正在使用 TensorFlow 2 1 0 dev20191125 不幸的是我无法编译一个带有错误的简单示例 AttributeError 模块 tensorflow python framework ops 没有属性 Registe
Keras 模型无法预测是否在线程中调用

我尝试在线程应用程序中使用 keras 和可用模型 VGG16 执行预测但是如果我在主线程中调用预测一切都会正常但是如果我在线程函数内部进行预测无论我使用threading multiprocessing 它只是在预测过程中停止
顺序没有属性“validation_data”

我从下面的链接下载并运行该文件https github com keunwoochoi keras callbacks example https github com keunwoochoi keras callbacks example
ResNet34 在 Keras.application 中可用吗？

我想包装一个 keras ResNet34 模型但似乎只有 ResNet50 可以从 keras applications 导入有没有一种方法可以直接导入 ResNet34 而不用构建 ResNet34 我在网上找到了以下代码但我想知
我无法使用 scikeras.wrappers.KerasRegressor 执行 cross_val_score

from tensorflow import keras from sklearn model selection import cross val score from sklearn datasets import make regre

随机推荐

radare2 使用记录

radare2 使用记录编译调试分析数据结构 rasm disasm analop 反汇编 cs disasm libarch 编译 radare2 UNIX like reverse engineering framework an
VSCode 无法跳转C语言函数定义和变量定义的解决方案（本地端+远程服务器端）

文章目录前言 1 给本地端安装 C C 插件 2 给远程服务器端安装 C C 插件小结前言初次使用 VSCode 编辑代码时估计有不少小伙伴遇到过点击函数或变量无法跳转到定义处左侧大纲栏里也没有任何内容的情况这是缺少 C C
Vue项目运行报错：operty or method “xxx“ is not defined on the instance but referenced during render.

报错原因属性或方法 xxx未在实例上定义但在渲染过程中被引用解决方法定义这个属性或者方法 1 只渲染了没有定义 2 定义属性或方法注意如果定义了还是报这个错误那么请一定检查定义的位置是不是正确的博主偶尔也会出现这个问题但
Spring cloud alibaba sentinel 实战

Sentinel 分布式系统流量防卫兵一简介二特性三概念四安装 4 1 本地安装 4 2 docker 安装五实例 5 1 启动sentinel 5 2 模块配置六持久化配置七注意 6 1 SentinelRes
奥拉星登陆显示网络或服务器,《奥拉星手游》进不去游戏怎么回事无法进入游戏解决方法分享...

导读奥拉星手游进不去游戏怎么办很多玩家都卡顿在游戏外面了那么遇到这个问题如何解决呢下面九游小编为大家介绍奥拉星无法进入游戏解决方法奥拉星无法进入游戏解决方法目前测试服刚刚开服人数在一时奥拉星手游进不去游戏怎么办很多玩家都
二叉树（构造篇）

二叉树纲领篇先复述一下前文总结的二叉树解题总纲是否可以通过遍历一遍二叉树得到答案如果可以用一个 traverse 函数配合外部变量来实现这叫遍历的思维模式是否可以定义一个递归函数通过子问题子树的答案推导出原问题的答案
华为OD机试 - 判断一组不等式是否满足约束并输出最大差（Java）

题目描述给定一组不等式判断是否成立并输出不等式的最大差输出浮点数的整数部分要求不等式系数为 double类型是一个二维数组不等式的变量为 int类型是一维数组不等式的目标值为 double类型是一维数组不等式约束为字符
sublime添加直接运行语言的方法

Tools Build system New Build System 添加新的编译文件添加lua编译环境 cmd usr local bin lua file file regex lua t 0 9 0 9 selector sour
js检索关键字

var i str indexOf 关键字 formi 查找str中formi的位置之后的下一个关键字的下标值如果省略第二个关键字则默认从0开始查找如果没有找到则返回 1 var i str lastIndexOf 关键字 form
title=“{{item.id}}“: Interpolation inside attributes has been removed. Use v-bind or the colon short

title item id Interpolation inside attributes has been removed Use v bind or the colon shorthand instead v for列表渲染中给a ca
python中codecs模块_python自然语言编码转换模块codecs介绍

python对多国语言的处理是支持的很好的它可以处理现在任意编码的字符这里深入的研究一下python对多种不同语言的处理有一点需要清楚的是当python要做编码转换的时候会借助于内部的编码转换过程是这样的原有编码 gt 内部编
Linux环境下安装JDK

安装jdk有两种方法手动安装 yum安装 yum安装如下 1 查询要安装jdk的版本 yum y list java 2 安装jdk1 8 yum install y java 1 8 0 openjdk x86 64 3 查询jdk版本
Windows 系统中安装 MySQL 5.6 zip 步骤并配置 root 密码

说明最早我安装 MySQL 还是使用安装版的进行安装但是作为一名程序员 MySQL 公司既然提供了 zip 版本的安装我们当然要使用这种绿色的安装方式 MySQL 5 6 版本和 5 7 版本的安装步骤有很大不同本文记录了 5 6
ultraiso制作u盘启动盘教程图文详解纯净-U盘启动教程

制作u盘启动盘用软碟通ultraiso轻松制作纯净windows7 u盘装系统网友们除了知道的u大师u盘启动盘制作工具 u启动 u深度老毛桃大白菜u盘启动盘制作工具外还有量产 fbinstTool 我这再介绍一种u盘启动盘的制作方式
maven子依赖版本覆盖父依赖

比如父依赖定义了jaskson version为2 13 3 在
01-Java基础-变量

一变量介绍变量就是向操作系统申请内存来存储值也就是说当创建变量的时候需要在内存中申请空间内存管理系统根据变量的类型为变量分配存储空间分配的空间只能用来储存该类型数据简单理解类似数学中的设 x 1 在程序中就表示声明了一个
移动级处理芯片岁末盘点

时间过得真快不知不觉间又到了年关这就说明一年一度做盘点汇总的时候也要到了作为即将踏入这个科技行业快有三个年头的媒体人笔者也这在这段时间内跟随新兴的移动互联网市场一起成长着同时也看尽了这三年来行业里无情的变迁感叹身在同一个行业里厂
层次分析法（多准则决策方法）

这是介于定量分析与定性分析的一种方法运用层次分析法建模大体上可按下面四个步骤进行建立递阶层次结构模型构造出各层次中的所有判断矩阵层次单排序及一致性检验层次总排序及一致性检验建立递阶层次结构模型每一层次中各元素所支配的元素一般
笔试题13:采用UDP协议,编写一个简单发送字符串的程序(源码)

UDP协议是一种无须建立连接的网络通信协议采用Java来编写一般有以下几个步骤包括接收端和发送端 1 创建数据Socket 指定一个端口号 2 对于接收消息的一端来说提供一个byte数组进行数据的存储而对于发送消息一端除此之外还
keras 对于大数据的训练,无法一次性载入内存,使用迭代器

说明我是在keras的官方demo上进行修改https github com fchollet keras blob master examples imdb cnn py 1 几点说明从文件中读入数据会降低GPU的使用率如果能够直

keras 对于大数据的训练,无法一次性载入内存,使用迭代器

keras 对于大数据的训练,无法一次性载入内存,使用迭代器 的相关文章

随机推荐

热门标签

keras 对于大数据的训练,无法一次性载入内存,使用迭代器的相关文章