机器学习学习笔记——数据集划分（留出法）

2023-11-17

编译工具：pycharm

学习工具：Anaconda——notebook

在机器学习算法中，我们通常将原始数据集划分为三个部分（划分要尽可能保持数据分布的一致性）：

（1）Training set（训练集）: 训练模型

（2）Validation set（验证集）： 选择模型

（3）Testing set（测试集）： 评估模型

其中Validation set的作用是用来避免过拟合的。在训练过程中，我们通常用它来确定一些超参数（例：根据Validation set的accuracy来确定early stoping的epoch大小，根据Validation set确定learning rate等等）。之所以不用Testing set，是因为随着训练的进行，网络会慢慢过拟合测试集，导致最后的Testing set没有参考意义。因此Training set用来计算梯度更新权重，即训练模型，Validation set用来做模型选择，Testing set则给出一个accuracy以判断网络性能的好坏。

数据集的划分通常有三种方法：

这里介绍留出法。

留出法直接将数据集D DD划分为两个互斥的部分，其中一部分作为训练集S SS，另一部分用作测试集T TT。通常训练集和测试集的比例为70%：30%。

1.随机产生数据集：

import numpy as np
#随机产生我们的数据集
x=np.random.randint(-10,10,10)
y=(x>0).astype(int)
print(y)

结果：

2.打乱下标顺序：

shuffle_indexs=np.random.permutation(len(x))
print(shuffle_indexs)

结果：

3. 留下训练数据：

#留几成当作测试数据集
test_radio=0.3
#求出test的个数
test_size=int(len(x)*test_radio)
#比如说我现在0-test_size当作test的数据，test_size-最后当成train数据
test_indexs=shuffle_indexs[:test_size]
train_indexs=shuffle_indexs[test_size:]
print(len(train_indexs))

结果：

4.使用fance indexing进行取值：

train_x = x[train_indexs]
train_y=y[train_indexs]

test_x=x[test_indexs]
test_y=y[test_indexs]
print(test_x.shape)

结果：

全部代码：

import numpy as np
#随机产生我们的数据集
x=np.random.randint(-10,10,10)
y=(x>0).astype(int)
print(y)
#打乱下标顺序
shuffle_indexs=np.random.permutation(len(x))
print(shuffle_indexs)
#留几成当作测试数据集
test_radio=0.3
#求出test的个数
test_size=int(len(x)*test_radio)
#比如说我现在0-test_size当作test的数据，test_size-最后当成train数据
test_indexs=shuffle_indexs[:test_size]
train_indexs=shuffle_indexs[test_size:]
print(len(train_indexs))
#使用fance indexing进行取值
train_x = x[train_indexs]
train_y=y[train_indexs]

test_x=x[test_indexs]
test_y=y[test_indexs]
print(test_x.shape)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习学习笔记——数据集划分（留出法）的相关文章

Django REST序列化器：创建对象而不保存

我已经开始使用 Django REST 框架我想做的是使用一些 JSON 发布请求从中创建一个 Django 模型对象然后使用该对象而不保存它我的 Django 模型称为 SearchRequest 我所拥有的是 api view
InterfaceError：连接已关闭（使用 django + celery + Scrapy）

当我在 Celery 任务中使用 Scrapy 解析函数有时可能需要 10 分钟时我得到了这个信息我用姜戈 1 6 5 django celery 3 1 16 芹菜 3 1 16 psycopg2 2 5 5 我也使用了psyc
如何收集列表、字典等中重复计算的结果（或制作修改每个元素的列表的副本）？

There are a great many existing Q A on Stack Overflow on this general theme but they are all either poor quality typical
DreamPie 不适用于 Python 3.2

我最喜欢的 Python shell 是DreamPie http dreampie sourceforge net 我想将它与 Python 3 2 一起使用我使用了添加解释器 DreamPie 应用程序并添加了 Python 3 2
如何打印没有类型的defaultdict变量？

在下面的代码中 from collections import defaultdict confusion proba dict defaultdict float for i in xrange 10 confusion proba di
如何在 Sublime Text 2 的 OSX 终端中显示构建结果

我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它让我困扰的一件事是默认的构建结果显示在 ST2 的底部我的程序产生一些很长的结果显示它的理想方式如在 TM2 中是并排查看它们如何在 Mac 操作系统
更改自动插入 tkinter 小部件的文本颜色

我有一个文本框小部件其中插入了三条消息一条是开始消息一条是结束消息一条是在单位被摧毁时发出警报的消息我希望开始和结束消息是黑色的但被毁坏的消息参见我在代码中评论的位置插入小部件时颜色为红色我不太确定如何去做这件事我看
如何在Windows上模拟socket.socketpair

标准Python函数套接字套接字对 https docs python org 3 library socket html socket socketpair不幸的是它在 Windows 上不可用从 Python 3 4 1 开始我
如何等到 Excel 计算公式后再继续 win32com

我有一个 win32com Python 脚本它将多个 Excel 文件合并到电子表格中并将其另存为 PDF 现在的工作原理是输出几乎都是 NAME 因为文件是在计算 Excel 文件内容之前输出的这可能需要一分钟如何强制工作簿计算值
SQL Alchemy 中的 NULL 安全不等式比较？

目前我知道如何表达 NULL 安全的唯一方法 SQL Alchemy 中的比较其中与 NULL 条目的比较计算结果为 True 而不是 NULL 是 or field None field value 有没有办法在 SQL Alchem
打破嵌套循环[重复]

这个问题在这里已经有答案了有没有比抛出异常更简单的方法来打破嵌套循环在Perl https en wikipedia org wiki Perl 您可以为每个循环指定标签并且至少继续一个外循环 for x in range 10 fo
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
python 集合可以包含的值的数量是否有限制？

我正在尝试使用 python 设置作为 mysql 表中 ids 的过滤器 python集存储了所有要过滤的id 现在大约有30000个这个数字会随着时间的推移慢慢增长我担心python集的最大容量它可以包含的元素数量有限制吗您最大
如何改变Python中特定打印字母的颜色？

我正在尝试做一个简短的测验并且想将错误答案显示为红色欢迎来到我的测验您想开始吗是的祝你好运法国的首都是哪里法国随机答案不正确的答案我正在尝试将其显示为红色我的代码是 print Welcome to my Quiz be
Nuitka 未使用 nuitka --recurse-all hello.py [错误] 编译 exe

我正在尝试通过 nuitka 创建一个简单的 exe 这样我就可以在我的笔记本电脑上运行它而无需安装 Python 我在 Windows 10 上并使用 Anaconda Python 3 我输入 nuitka recurse all h
如何从没有结尾的管道中读取 python 中的 stdin

当管道来自打开时不知道正确的名称我无法从 python 中的标准输入或管道读取数据文件我有作为例子管道测试 py import sys import time k 0 try for line in sys stdin k k
在 Pandas DataFrame Python 中添加新列[重复]

这个问题在这里已经有答案了例如我在 Pandas 中有数据框 Col1 Col2 A 1 B 2 C 3 现在如果我想再添加一个名为 Col3 的列并且该值基于 Col2 式中如果Col2 gt 1 则Col3为0 否则为1 所以
从 Python 中的类元信息对 __init__ 函数进行类型提示

我想做的是复制什么SQLAlchemy确实以其DeclarativeMeta班级有了这段代码 from sqlalchemy import Column Integer String from sqlalchemy ext declar
使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

我有一个 Pandas 数据框它有两列一列进程参数列包含字符串另一列值列包含相应的浮点值我需要过滤出部分匹配列过程参数中的一组键的子数据帧并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce
您可以在 Python 类型注释中指定方差吗？

你能发现下面代码中的错误吗米皮不能 from typing import Dict Any def add items d Dict str Any gt None d foo 5 d Dict str str add items d f

随机推荐

flask框架和配置

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档文章目录 flask框架介绍 flsak框架的安装实现Flask基本操作 Flask的配置 flask框架介绍 Flask诞生于2010年使用python语言基于Werk
通过 docker-compose 搭建高可用 nginx + keepalived 集群

目录 1 搭建环境 2 Keepalived介绍 3 搭建步骤 1 搭建环境两台虚拟机 CentOS Linux release 7 9 2009 Core Docker version 23 0 1 Docker compose ver
小知识记录

1 加URL地址栏上的图标在jsp文件中写在webroot下加入此图片并且把名字换成 favicon ico 2 处理并发读一致性隔离级别脏读不可重复读幻影读同步锁乐观锁数据版本 Version 记录机制实现悲观锁
一文弄懂Ubuntu安装配置方法（挂载、SSH、用户管理）

Ubuntu安装配置方法挂载 SSH 用户管理这篇文章是本人使用Ubuntu四年来对常用操作的总结需要的同学可以保存备用安装Ubuntu U盘安装注意安装英文版的为佳挂载分区最好切换到root 确定要挂载的分区和目录查看已
设计数组工具类、日期工具类；线程模拟多窗口售票流程；总结内部类访问方式；区分数值和字符串并排序；猜四位数小游戏

文章目录 1 设计可存储不同长度兼容多种类型数组工具类 2 控制台随机输入数值或字符串区分出数值和字符串从小到大输出要求个数类型不限去除重复 3 设计日期工具类兼容jdk5 8 4 总结内部类访问方式内部类特性静态内部类
python自己写包_自己写python包

广告关闭腾讯云11 11云上盛惠精选热门产品助力上云云服务器首年88元起买的越多返的越多最高返5000元 packages find packages exclude tests exmaple 所有包除了tests和exmapl
Docker容器与虚拟化技术：GitHub账户注册

目录一实验 1 GitHub 一实验 1 GitHub 1 GitHub是一个面向开源及私有软件项目的托管平台因为只支持Git作为唯一的版本库格式进行托管故名GitHub 2 官网 GitHub Let s build from
ArcGIS构建缓冲区，合并两个重叠的面

问题描述需要构建线缓冲区并将重叠的缓冲区合并成一个面要素不相邻的不需要合并解决思路构建缓冲区并进行融合相关工具描述 ArcMap提供的缓冲区 buffer 工具融合类型有三种但ALL不能满足需求联合 Union 工具会
集成FCM推送一系列问题

FCM Firebase Cloud Messaging 首先集成FCM需要一定的条件必要条件 Android2 3版本以上的手机和拥有Google service的框架应用和不在国内的网络使用外网第一国内的手机一般阉割了Google
教你用Python爬网站数据，并用BI可视化分析！

两年时间里曾经换过一份工作一直都是从事大数据相关的行业目前是一家企业的BI工程师主要工作就是给业务部门出报表和业务分析报告回想自己过去的工作成绩也还算是不错的多次通过自己分析告解决了业务的疑难杂症领导们各种离不开但安逸久了总
C++17新特性之try_emplace与insert_or_assign

由于std map中元素的key是唯一的我们经常遇到这样的场景向map中插入元素时先检测map指定的key是否存在不存在时才做插入操作如果存在直接取出来使用或者key不存在时做插入操作存在时做更新操作通用的做法可以直
Sqoop脚本调用

在生产环境中肯定不能直接去跑命令需要使用脚本文件然后定时执行脚本文件即可 cd usr hdk mkdir job cd job vi RDBMS2HDFS opt import connect jdbc mysql hadoop01
blender基础入门 / 操作快捷键

鼠标停留在工具按钮上按F1 打开官网在线帮助基本显示操作框放大缩小 T 显示隐藏左侧工具栏基本信息侧边栏Sidebar 展开弹出快捷键N 模型比例1 1 保持自身比例数据模型游标轴点中心点设置位置游标模式 shift C游
Apache下 FastCGI 配置小结

http hi baidu com clusterlee item aa9a122c84cf94d40e37f985 一下载 FastCGI模块 http www fastcgi com dist mod fastcgi 2 4 6 ta
知识蒸馏综述：代码整理

GiantPandaCV导语收集自RepDistiller中的蒸馏方法尽可能简单解释蒸馏用到的策略并提供了实现源码 1 KD Knowledge Distillation 全称 Distilling the Knowledge in
简单使用easyExcel实现对excel读和写操作

1 引入依赖 easyexcel底层封装了poi所以必须引入poi而且版本需要进行对应如下
Python报错：requests.exceptions.SSLError: HTTPSConnectionPool(host=‘huggingface.co‘, port=443): Max ret

1 Python报错 2 解决方法出现问题的原因是运行程序的时候没有联网但是使用了未下载的bert base chinese模型我们可以将模型手动下载然后放入到对应文件夹即可 3 下载bert base chinese模型首先进入
java 字符串包含_java判断字符串包含某个字符的实例方法

java判断字符串是否包含某个字符的方法一 contains方法 1 描述 java lang String contains 方法返回true 当且仅当此字符串包含指定的char值序列 2 声明 public boolean conta
uc浏览器显示服务器错误,使用UC浏览器打开网页报错，无法播放优酷官网视频...

适用产品 HUAWEI MateBook 13 2021款intel i7 8g 512g 集显触屏 2020 锐龙版 amd r5 16g 512g 集显锐龙版2020款 amd r5 8g 512g 集显触屏 2021款 inte
机器学习学习笔记——数据集划分（留出法）

编译工具 pycharm 学习工具 Anaconda notebook 在机器学习算法中我们通常将原始数据集划分为三个部分划分要尽可能保持数据分布的一致性 1 Training set 训练集训练模型 2 Validation set

机器学习学习笔记——数据集划分（留出法）

机器学习学习笔记——数据集划分（留出法） 的相关文章

随机推荐

热门标签

机器学习学习笔记——数据集划分（留出法）的相关文章