TensorFlow制作自己的数据集，并用神经网络来训练自己制作的数据集【上】

2023-11-13

参考文章：
将数据导入TensorFlow
使用tensorflow训练自己的数据集（一）——制作数据集
 用Tensorflow处理自己的数据：制作自己的TFRecords数据集

在用tensorflow来进行网络模型的训练时，我们总是需要先输入数据，这样才能对网络模型进行训练。这就涉及将数据导入TensorFlow的问题了
总共有四种方法将数据导入到TensorFlow中：

使用数据集API，这是将数据集导入tensorflow最常用的办法
Feeding，python的代码在运行每个步骤时提供数据
从文件读取，输入管道从tensorflow图的开始处读取文件中的数据
预加载数据，tensorflow图中的常量或变量保存所有数据（对于小型数据集）

在这里我们使用第三种方法，将自己的数据集先写入TFRecord文件，然后从TFRecord文件将数据导入TensorFlow。

【1】首先编写一个小程序来获取自己的数据，将它放在一个示例协议缓冲区中，将缓冲区序列化为一个字符串，然后使用tf.python_io.TFRecordWriter将该字符串写入TFRecords文件。下面直接上代码，根据代码注释很容易理解：

def create_train_record():
    """创建训练集tfrecord"""
    writer = tf.python_io.TFRecordWriter(train_record_path)     # 创建一个writer
    for index, name in enumerate(classes):       #生成由二元组构成的一个迭代对象，每个二元组由可迭代参数的索引号及其对应的元素组成
        class_path = cwd + "\\" + name + "\\"
        l = int(len(os.listdir(class_path)) * 0.6)      # 取前60%创建训练集
        for img_name in os.listdir(class_path)[:l]:     
            img_path = class_path + img_name
            img = Image.open(img_path)
            img = img.resize((128, 128))                # resize图片大小
            img_raw = img.tobytes()                     # 将图片转化为原生bytes即二进制格式
            example = tf.train.Example(                 # 封装到示例协议缓冲区Example中
                features=tf.train.Features(feature={
                    "label":_int64list(index),          # label必须为整数类型属性
                    'img_raw':_byteslist(img_raw)       # 图片必须为二进制属性
                }))
            writer.write(example.SerializeToString())   #序列化为字符串，将字符串写入TFRecords文件
    writer.close()                                      # 关闭writer
def create_test_record():
    """创建测试集tfrecord"""
    writer = tf.python_io.TFRecordWriter(test_record_path)
    for index, name in enumerate(classes):
        class_path = cwd + "\\" + name + "\\"
        l = int(len(os.listdir(class_path)) * 0.6)
        h = int(len(os.listdir(class_path)) * 0.9)
        for img_name in os.listdir(class_path)[l:h]:     # 中间30%作为测试集
            img_path = class_path + img_name
            img = Image.open(img_path)
            img = img.resize((128, 128))
            img_raw = img.tobytes()  # 将图片转化为原生bytes
            # print(index,img_raw)
            example = tf.train.Example(
                features=tf.train.Features(feature={
                    "label":_int64list(index),
                    'img_raw':_byteslist(img_raw)
                }))
            writer.write(example.SerializeToString())
    writer.close()
def create_val_record():
    """创建验证集tfrecord"""
    writer = tf.python_io.TFRecordWriter(val_record_path)
    for index, name in enumerate(classes):
        class_path = cwd + "\\" + name + "\\"
        h = int(len(os.listdir(class_path)) * 0.9)
        for img_name in os.listdir(class_path)[h:]:     # 剩余10%作为验证集
            img_path = class_path + img_name
            img = Image.open(img_path)
            img = img.resize((128, 128))
            img_raw = img.tobytes()  # 将图片转化为原生bytes
            # print(index,img_raw)
            example = tf.train.Example(
                features=tf.train.Features(feature={
                    "label":_int64list(index),
                    'img_raw':_byteslist(img_raw)
                }))
            writer.write(example.SerializeToString())
    writer.close()

我们将数据集分为训练集+测试集+验证集三部分，占总数据集的比例分别为：60％、30%、10%。根据自己的需要可以自己任意比例的分配自己的数据集，很多时候我们可能只需要将数据集分为训练集+测试集。

【2】再就是读取TFRecords文件，使用tf.TFRecordReader与tf.parse_single_example解码器。tf.parse_single_example操作将示例协议缓冲区解码为张量。

def read_record(filename):
    """读取tfrecord"""
    filename_queue = tf.train.string_input_producer([filename])     # 创建文件队列
    reader = tf.TFRecordReader()                                    # 创建reader
    _, serialized_example = reader.read(filename_queue)
    features = tf.parse_single_example(
        serialized_example,
        features={
            'label': tf.FixedLenFeature([], tf.int64),
            'img_raw': tf.FixedLenFeature([], tf.string)
        }
    )
    label = features['label']
    img = features['img_raw']
    img = tf.decode_raw(img, tf.uint8)   #tf.decode_raw函数的意思是将原来编码为字符串类型的变量重新变回来
    img = tf.reshape(img, [128, 128, 3])
#    img = tf.cast(img, tf.float32) * (1. / 255) - 0.5       # 归一化   归一化之后图片会变成那种看不清的图片，未归一化的话则是完好的图片
    label = tf.cast(label, tf.int32)  #这个函数主要用于数据类型的转变，不会改变原始数据的值还有形状的，
    return img, label

【3】在管道的最后，使用一个队列来作为训练，评估或判断一起批处理示例。为此，在这里使用一个随机化的示例顺序的队列：tf.train.shuffle_batch。

def get_batch_record(filename,batch_size):
    """获取batch"""
    image,label = read_record(filename)
    image_batch,label_batch = tf.train.shuffle_batch([image,label],     # 随机抽取batch size个image、label
                                                     batch_size=batch_size,
                                                     capacity=2000,
                                                     min_after_dequeue=1000)
    return image_batch,label_batch#tf.reshape(label_batch,[batch_size])

【4】调用以上函数，制作数据集并用自己制作的数据集进行训练

create_train_record() 
create_test_record()
create_val_record()
image_batch,label_batch = get_batch_record(train_record_path,32)
init = tf.global_variables_initializer()

with tf.Session() as sess:
    sess.run(init)
    coord = tf.train.Coordinator() #1
    threads = tf.train.start_queue_runners(sess=sess,coord=coord) #2
    for i in range(1):
        image,label = sess.run([image_batch,label_batch])
        print(image.shape,1)
    coord.request_stop() #3
    coord.join(threads) #4

【5】整合以上的代码，写入dateset.py模块

#coding="utf-8"
import os
import tensorflow as tf
from PIL import Image
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'
# 源数据地址
cwd = os.getcwd() + "\\train"
# 生成record路径及文件名
train_record_path = os.getcwd() + "\\train.tfrecords"
test_record_path = os.getcwd() + "\\test.tfrecords"
val_record_path = os.getcwd() + "\\val.tfrecords"
# 分类 根据自己的需求进行分类
classes = {'0-gjfd','1-gjqzm','2-gjxbs','3-cmj','4-gjsjj','5-hlj','6-gjhyj','7-hdjqc','8-dlfj','9-hcfs','10-gjdsy','11-jxsy','12-mjdsy'
,'13-xwye','14-kyye','15-gjqye','16-hjyc','17-jecy','18-xxjy'}
def _byteslist(value):
    """二进制属性"""
    return tf.train.Feature(bytes_list = tf.train.BytesList(value = [value]))

def _int64list(value):
    """整数属性"""
    return tf.train.Feature(int64_list = tf.train.Int64List(value = [value]))

def create_train_record():
    """创建训练集tfrecord"""
    writer = tf.python_io.TFRecordWriter(train_record_path)     # 创建一个writer
    for index, name in enumerate(classes):       #生成由二元组构成的一个迭代对象，每个二元组由可迭代参数的索引号及其对应的元素组成
        class_path = cwd + "\\" + name + "\\"
        l = int(len(os.listdir(class_path)) * 0.6)      # 取前60%创建训练集
        for img_name in os.listdir(class_path)[:l]:     
            img_path = class_path + img_name
            img = Image.open(img_path)
            img = img.resize((128, 128))                # resize图片大小
            img_raw = img.tobytes()                     # 将图片转化为原生bytes即二进制格式
            example = tf.train.Example(                 # 封装到示例协议缓冲区Example中
                features=tf.train.Features(feature={
                    "label":_int64list(index),          # label必须为整数类型属性
                    'img_raw':_byteslist(img_raw)       # 图片必须为二进制属性
                }))
            writer.write(example.SerializeToString())   #序列化为字符串，将字符串写入TFRecords文件
    writer.close()                                      # 关闭writer

def create_test_record():
    """创建测试tfrecord"""
    writer = tf.python_io.TFRecordWriter(test_record_path)
    for index, name in enumerate(classes):
        class_path = cwd + "\\" + name + "\\"
        l = int(len(os.listdir(class_path)) * 0.6)
        h = int(len(os.listdir(class_path)) * 0.9)
        for img_name in os.listdir(class_path)[l:h]:     #取中间30%作为测试集
            img_path = class_path + img_name
            img = Image.open(img_path)
            img = img.resize((128, 128))
            img_raw = img.tobytes()  # 将图片转化为原生bytes
            # print(index,img_raw)
            example = tf.train.Example(
                features=tf.train.Features(feature={
                    "label":_int64list(index),
                    'img_raw':_byteslist(img_raw)
                }))
            writer.write(example.SerializeToString())
    writer.close()

def create_val_record():
    """创建验证集tfrecord"""
    writer = tf.python_io.TFRecordWriter(val_record_path)
    for index, name in enumerate(classes):
        class_path = cwd + "\\" + name + "\\"
        h = int(len(os.listdir(class_path)) * 0.9)
        for img_name in os.listdir(class_path)[h:]:     # 剩余10%作为验证集
            img_path = class_path + img_name
            img = Image.open(img_path)
            img = img.resize((128, 128))
            img_raw = img.tobytes()  # 将图片转化为原生bytes
            # print(index,img_raw)
            example = tf.train.Example(
                features=tf.train.Features(feature={
                    "label":_int64list(index),
                    'img_raw':_byteslist(img_raw)
                }))
            writer.write(example.SerializeToString())
    writer.close()

def read_record(filename):
    """读取tfrecord"""
    filename_queue = tf.train.string_input_producer([filename])     # 创建文件队列
    reader = tf.TFRecordReader()                                    # 创建reader
    _, serialized_example = reader.read(filename_queue)
    features = tf.parse_single_example(
        serialized_example,
        features={
            'label': tf.FixedLenFeature([], tf.int64),
            'img_raw': tf.FixedLenFeature([], tf.string)
        }
    )
    label = features['label']
    img = features['img_raw']
    img = tf.decode_raw(img, tf.uint8)   #tf.decode_raw函数的意思是将原来编码为字符串类型的变量重新变回来
    img = tf.reshape(img, [128, 128, 3])
#    img = tf.cast(img, tf.float32) * (1. / 255) - 0.5       # 归一化   归一化之后图片会变成那种看不清的图片，未归一化的话则是完好的图片
    label = tf.cast(label, tf.int32)  #这个函数主要用于数据类型的转变，不会改变原始数据的值还有形状的，
    return img, label

def get_batch_record(filename,batch_size):
    """获取batch"""
    image,label = read_record(filename)
    image_batch,label_batch = tf.train.shuffle_batch([image,label],     # 随机抽取batch size个image、label
                                                     batch_size=batch_size,
                                                     capacity=2000,
                                                     min_after_dequeue=1000)
    return image_batch,label_batch#tf.reshape(label_batch,[batch_size])

def main():
    create_train_record()
    create_test_record()
    create_val_record()
if __name__ == '__main__':
    main()
                             
#create_train_record()
#create_test_record()
#create_val_record()
image_batch,label_batch = get_batch_record(train_record_path,32) #此处是调用的train.tfrcord文件，根据需要进行调用tfrecord文件

with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    coord = tf.train.Coordinator() #1
    threads = tf.train.start_queue_runners(sess=sess,coord=coord) #2
    for i in range(1):
        image,label = sess.run([image_batch,label_batch])
        print(image.shape,label.shape)
    coord.request_stop() #3
    coord.join(threads) #4

在下篇文章中，我们将会把我们制作好的数据集用于神经网络的训练

附：
在运行代码时可能会出现如下错误：
【UnicodeEncodeError】: ‘utf-8’ codec can’t encode character ‘\udcd5’ in position 2189: surrogates not allowed
这个错误是因为编码方式不一致造成的，但是解决这个问题的办法，是检查路径，仔细检查一下文件路径，看看是否正确。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

TensorFlow制作自己的数据集，并用神经网络来训练自己制作的数据集【上】的相关文章

打印出网络架构中每一层的形状

在 Keras 中我们可以如下定义网络有什么办法可以输出每层之后的形状例如我想打印出以下形状inputs在定义行之后inputs 然后打印出形状conv1在定义行之后conv1 etc inputs Input 1 img rows
无法从 DenseVariational 获得合理的结果

我正在尝试使用以下大小的数据集正弦曲线进行回归问题500 首先我尝试使用 2 个密集层每个层有 10 个单元 model tf keras Sequential tf keras layers Dense 10 activation
如何保存 Tensorflow.js 模型？

我想制作一个创建保存和训练 tensorflow js 模型的用户界面但我无法在创建模型后保存模型我什至从tensorflow js文档复制了这段代码但它不起作用 const model tf sequential layers t
keras LSTM 以正确的形状提供输入

我从具有以下形状的 pandas 数据框中获取一些数据 df head gt gt gt Value USD Drop 7 Up 7 Mean Change 7 Change Predict 0 06480 2 0 4 0 0 000429
使用自定义层运行 Keras 模型时出现问题

我目前正在攻读学士学位论文FIIT STU https www fiit stuba sk en html page id 749 其主要目标是尝试复制和验证以下结果study http arxiv org abs 2006 00885 这
在 GPU 上训练时如何处理非确定性？

在调整超参数以使模型性能更好时我注意到每次运行代码时获得的分数以及创建的模型都是不同的尽管修复了随机操作的所有种子如果我在CPU上运行就不会出现这个问题我搜索了一下发现这是使用 GPU 训练时的常见问题这是一个非常好的详细
如何在对象检测 API Tensorflow 中仅检测人体

我在用tensorflow对象检测 API 用于检测对象它在我的 Windows 系统中运行良好我如何对其进行更改以仅检测提到的对象例如我只想检测人类而不是所有对象根据此中的第 1 条评论answer https stackove
如何安装libcusolver.so.11

我正在尝试安装 Tensorflow 但它要求 libcusolver so 11 而我只有 libcusolver so 10 有人可以告诉我我做错了什么吗这是我的 Ubuntu nvidia 和 CUDA 版本 uname a Lin
如何将 std::vector 转换为张量而不在 C++ 中的张量流中进行复制？

在c 中多维矩阵存储在std vector
使用输入管道时如何替换 feed_dict？

假设您有一个已与feed dict到目前为止将数据注入到图表中每隔几个时期我就会通过将任一数据集的一批数据输入到我的图表中来评估训练和测试损失现在出于性能原因我决定使用输入管道看看这个虚拟示例 import tensorflow
Tensorflow：为什么 tf.case 给我错误的结果？

我正在尝试使用tf case https www tensorflow org api docs python tf case https www tensorflow org api docs python tf case 有条件地更新张
用于测试张量流安装的速度基准

我怀疑我的 GPU 机器上是否正确配置了张量流因为在我精美的 GPU 机器上训练一个简单的线性回归模型批量大小 32 1500 个输入特征 150 个输出变量的每次迭代速度比在笔记本电脑上慢 100 倍我使用的是 Titan X 配
AttributeError：模块“keras.engine”没有属性“Layer”

当我试图运行时Parking Slot mask rcnn py文件我收到如下错误mrcnn model py文件我该如何解决 gt 2021 06 17 08 25 18 585897 W tensorflow stream execut
使用 Keras Tuner 调整模型时如何跳过有问题的超参数组合？

使用 Keras Tuner 时似乎没有办法允许跳过有问题的超参数组合例如 Conv1D 层中的过滤器数量可能与后续 MaxPooling1D 层中的池大小的所有值不兼容从而导致模型构建错误然而在运行调谐器之前可能不知道这一点一
使用 tf.keras.Models.Sequential 构建的架构是否比使用 Tensorflow 的功能 API 构建的架构运行得更慢、更准确？

我只是比较了 2 个我认为等效的 VGG ish 架构一个是使用构建的tf keras Models Sequential 另一个用了Tensorflow 的函数式 API 每个人都试图解决cats vs dogs 数据集经过 10
conv1D 中形状的尺寸

我尝试过构建一个只有一层的 CNN 但遇到了一些问题事实上编译器告诉我 ValueError 检查模型输入时出错预期的 conv1d 1 input 具有 3 个维度但得到形状为 569 30 的数组这是代码 import num
如何将两个 keras 模型连接成一个模型？

假设我有一个 ResNet50 模型我希望将该模型的输出层连接到 VGG 模型的输入层这是 ResNet 模型和 ResNet50 的输出张量 img shape 164 164 3 resnet50 model ResNet50 in
Tensorflow seq2seq 获取序列隐藏状态

我不久前才开始研究tensorflow 我正在研究 seq2seq 模型并以某种方式让教程起作用但我一直坚持获取每个句子的状态据我了解 seq2seq 模型采用输入序列并通过 RNN 为序列生成隐藏状态随后模型使用序列的隐藏状态来
Tensorflow 到 ONNX 的转换

我目前正在尝试转换我使用本教程创建的已保存且正在工作的 pb 文件 https github com thtrieu darkflow https github com thtrieu darkflow 到 onnx 文件中我目前正在
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp

随机推荐

windows文件传到linux导致文件类型错误处理

问题 hadoop hadoop001 hadoop 2 6 0 cdh5 7 0 sbin start dfs sh 18 11 27 16 24 25 WARN util NativeCodeLoader Unable to load
VC++----using namespace std问题

写一个简单的代码 cpp view plain copy print
大数据组件-Flume集群环境的启动与验证

大数据学习记录篇持续更新中个人主页 beixi 本文章收录于专栏点击传送大数据学习持续更新中感谢各位前辈朋友们支持学习上一篇文章写到了Flume集群环境的安装这篇文章接着上篇文章延伸Flume集群环境的启动与验证如果Flu
JS：三种常用的函数定义方式

js中函数也是一个对象我们可以通过调用构造函数即new Function 的方式来定义但是在 JavaScript 中很多时候要尽量避免使用 new 关键字因此这种方式并不推荐了解即可通常使用以下三种定义方式命名函数即最基本
ARMV8体系结构简介：AArch64系统级体系结构之Self-hosted debug

1 前言 2 关于self hosted debug Debugger调试器是操作系统或系统软件的一部分它会处理debug exception或修改debug system register debugger运行在EL0 提供了用户de
VS Code 搭建 C/C++ 编译环境（clang）

下载安装步骤 1 下载 LLVM 安装比如我的安装在 E 盘 2 下载 MinGW w64 解压无需安装 3 解压 MinGW w64 后将 mingw64 下的文件拷贝到 LLVM 下文件夹存在重名合并即可无冲突我的环境 1
SpringCache -- Redis --- 配置与缓存使用--配置过期时间

写在前面学redis 还是得搭配SpringCache来玩一玩前置内容 win安装 redis基础 springboot使用redis 文章目录导入依赖配置cache 使用 Cacheable CachePut CacheEvict
imx6ull: 从内核、buildroot配置实现ffmpeg+nginx+rtmp+USB摄像头

前言根据正点原子的教程在官方提供的出厂根文件系统下很容易就实现了 I MX6U 嵌入式 Linux C 应用编程指南第三十四章的视频监控项目但是想自己从内核根文件系统自己配置来实现整个流程以便于在其他平台下能够迁移而且也算是熟
Visual Studio Code+phpstudy(WampServer、LNMP...)搭建PHP开发环境

VS Code是微软近年推出的一款文本编辑器相关下载 https code visualstudio com Download phpstudy是将Apache Nginx PHP MySQ等等整合在一块的一个软件为搭建软件开发运行环
Python数据可视化的例子——直方图（hist）和核密度曲线（kde）

直方图一般用来观察数据的分布形态横坐标代表数值的均匀分段纵坐标代表每个段内的观测数量频数一般直方图都会与核密度图搭配使用目的是更加清晰地掌握数据的分布特征下面将详细介绍该类型图形的绘制 1 matplotlib模块 matplo
【达内课程】Android自动化测试框架Robotium

文章目录 Robotium中各个类的用途小试牛刀测试1 测试2 测试3 测试4 测试5 Github地址相关jar包下载 Robotium中各个类的用途类用途方法 By 查询条件类类似于UIAutomator的By类只是 R
LeetCode介绍

力扣 LeetCode 是领扣网络旗下专注于程序员技术成长和企业技术人才服务的品牌源自美国硅谷力扣为全球程序员提供了专业的IT 技术职业化提升平台有效帮助程序员实现快速进步和长期成长此外力扣 LeetCode 致力于解决程序员技术
点滴记录——使用Ganglia监控Openstack Swift状态

转载请说明出处 http blog csdn net cywosp article details 42304487 在官方文档中有对StatsD来对Swift状态进行监控的描述 http docs openstack org develo
Android Studio中AndroidManifest.xml文件中application标签

AndroidManifest xml 是每个android程序中必须的文件它位于整个项目的根目录描述了package中暴露的组件 activities services 等等他们各自的实现类各种能被处理的数据和启动位置 Andro
maven 常见命令学习笔记（一）之 -pl -am -amd

假设现有项目结构如下 dailylog parent dailylog common dailylog web 三个文件夹处在同级目录中 dailylog web依赖dailylog common dailylog parent管理dail
react native打包apk时配置gradle阿里云maven仓库加速依赖下载

前言使用react native进行打包apk时因为maven仓库的原因会导致某些依赖和包没有添加成功会导致一些问题所以做法就是将gradle中的仓库地址进行配置而且配置过程中有一些注意事项要注意问题详解进入android目录
xshell和xsftp学生版下载链接

xshell https www netsarang com zh downloading token X3loQWFwNVBtWWRnaFpZazRIQ0RnQUBVWWxIT3c4VHRfTEFOdGs5Z3Y1N093 有效期 Sep
实战教程：如何将自己的Python包发布到PyPI上

1 PyPi的用途 Python中我们经常会用到第三方的包默认情况下用到的第三方工具包基本都是从Pypi org里面下载我们举个栗子如果你希望用Python实现一个金融量化分析工具目前比较好用的金融数据来源是 Yahoo 和 Go
原生js+html+css实现从表单（form）动态加数据到表格（table）

css部分 html部分
TensorFlow制作自己的数据集，并用神经网络来训练自己制作的数据集【上】

参考文章将数据导入TensorFlow 使用tensorflow训练自己的数据集一制作数据集用Tensorflow处理自己的数据制作自己的TFRecords数据集在用tensorflow来进行网络模型的训练时我们总是需要先输入

TensorFlow制作自己的数据集，并用神经网络来训练自己制作的数据集【上】

TensorFlow制作自己的数据集，并用神经网络来训练自己制作的数据集【上】 的相关文章

随机推荐

热门标签

TensorFlow制作自己的数据集，并用神经网络来训练自己制作的数据集【上】的相关文章