区别一下三个概念:
训练集:顾名思义,用于训练模型,调整网络中的权值、偏差等参数
测试集:对模型能力进行评估,调整学习率等超参,使模型效果达到最优
验证集:对模型训练完全无影响的数据,评估模型泛化能力
一般划分比例3:1:1
假设数据集如上一篇博文所定义的格式:零基础自定义数据集入门示例
内容为【时间,数据1,数据2,数据3】的列表
dataset = mydataset(path,file)
features = dataset[:][0]
labels = dataset[:][1]
切分数据集:
from sklearn.model_selection import train_test_split
#训练集占总样本的比例
train_persentage = 0.6
#将数据集划分为训练集、测试集、验证集
#random_state赋值为整数时,每次产生相同的随机数
#stratify表示划分后,训练集数据与test数据中labels的比例相同
train_x, temp_x, train_y, temp_y = train_test_split(features, labels, test_size=1-train_persentage, random_state=1, stratify=labels)
test_x, verify_x, text_y, verify_y = train_test_split(temp_x, temp_y , test_size=0.5, random_state=2, stratify=temp_y)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)