sklearn.model_selection.train_test_split

2023-10-27

数据集划分：sklearn.model_selection.train_test_split(*arrays, **options)

主要参数说明：

*arrays：可以是列表、numpy数组、scipy稀疏矩阵或pandas的数据框

test_size：可以为浮点、整数或None，默认为None

①若为浮点时，表示测试集占总样本的百分比

②若为整数时，表示测试样本样本数

③若为None时，test size自动设置成0.25

train_size：可以为浮点、整数或None，默认为None

①若为浮点时，表示训练集占总样本的百分比

②若为整数时，表示训练样本的样本数

③若为None时，train_size自动被设置成0.75

random_state：可以为整数、RandomState实例或None，默认为None

①若为None时，每次生成的数据都是随机，可能不一样

②若为整数时，每次生成的数据都相同

stratify：可以为类似数组或None

①若为None时，划分出来的测试集或训练集中，其类标签的比例也是随机的

②若不为None时，划分出来的测试集或训练集中，其类标签的比例同输入的数组中类标签的比例相同，可以用于处理不均衡的数据集

通过简单栗子看看各个参数的作用：

①test_size决定划分测试、训练集比例

In [ 1]: import numpy as np
...: from sklearn.model_selection import train_test_split
...: X = np.arange( 20)
...: y = [ 'A', 'B', 'A', 'A', 'A', 'B', 'A', 'B', 'B', 'A', 'A', 'B', 'B', 'A', 'A', 'B', 'A
...: ', 'B', 'A', 'A']
...: X_train , X_test , y_train,y_test = train_test_split(X,y,test_size= 0.25
...: ,random_state= 0)
...:
In [ 2]: X_test.shape
Out[ 2]: ( 5,)
In [ 3]: X_train.shape
Out[ 3]: ( 15,)
In [ 4]: X_test ,y_test
Out[ 4]: (array([ 18, 1, 19, 8, 10]), [ 'A', 'B', 'A', 'B', 'A'])

②random_state不同值获取到不同的数据集

设置random_state=0再运行一次，结果同上述相同

In [ 5]: import numpy as np
...: from sklearn.model_selection import train_test_split
...: X = np.arange( 20)
...: y = [ 'A', 'B', 'A', 'A', 'A', 'B', 'A', 'B', 'B', 'A', 'A', 'B', 'B', 'A', 'A', 'B', 'A
...: ', 'B', 'A', 'A']
...: X_train , X_test , y_train,y_test = train_test_split(X,y,test_size= 0.25
...: ,random_state= 0)
...: X_test ,y_test
...:
Out[ 5]: (array([ 18, 1, 19, 8, 10]), [ 'A', 'B', 'A', 'B', 'A'])

设置random_state=None运行两次，发现两次的结果不同

In [ 6]: import numpy as np
...: from sklearn.model_selection import train_test_split
...: X = np.arange( 20)
...: y = [ 'A', 'B', 'A', 'A', 'A', 'B', 'A', 'B', 'B', 'A', 'A', 'B', 'B', 'A', 'A', 'B', 'A
...: ', 'B', 'A', 'A']
...: X_train , X_test , y_train,y_test = train_test_split(X,y,test_size= 0.25
...: )
...: X_test ,y_test
...:
Out[ 6]: (array([ 3, 18, 14, 7, 4]), [ 'A', 'A', 'A', 'B', 'A'])
In [ 7]: import numpy as np
...: from sklearn.model_selection import train_test_split
...: X = np.arange( 20)
...: y = [ 'A', 'B', 'A', 'A', 'A', 'B', 'A', 'B', 'B', 'A', 'A', 'B', 'B', 'A', 'A', 'B', 'A
...: ', 'B', 'A', 'A']
...: X_train , X_test , y_train,y_test = train_test_split(X,y,test_size= 0.25
...: )
...: X_test ,y_test
...:
Out[ 7]: (array([ 18, 6, 3, 14, 8]), [ 'A', 'A', 'A', 'A', 'B'])

③设置stratify参数，可以处理数据不平衡问题

In [ 8]: import numpy as np
...: from sklearn.model_selection import train_test_split
...: X = np.arange( 20)
...: y = [ 'A', 'B', 'A', 'A', 'A', 'B', 'A', 'B', 'B', 'A', 'A', 'B', 'B', 'A', 'A', 'B', 'A
...: ', 'B', 'A', 'A']
...: X_train , X_test , y_train,y_test = train_test_split(X,y,test_size= 0.25
...: ,stratify=y)
...: X_test ,y_test
...:
Out[ 8]: (array([ 18, 8, 3, 10, 11]), [ 'A', 'B', 'A', 'A', 'B'])
In [ 9]: import numpy as np
...: from sklearn.model_selection import train_test_split
...: X = np.arange( 20)
...: y = [ 'A', 'B', 'A', 'A', 'A', 'B', 'A', 'B', 'B', 'A', 'A', 'B', 'B', 'A', 'A', 'B', 'A
...: ', 'B', 'A', 'A']
...: X_train , X_test , y_train,y_test = train_test_split(X,y,test_size= 0.25
...: ,stratify=y)
...: X_test ,y_test
...:
Out[ 9]: (array([ 6, 19, 8, 17, 0]), [ 'A', 'A', 'B', 'B', 'A'])
In [ 10]: X_train,y_train
Out[ 10]:
(array([ 7, 1, 11, 10, 15, 2, 3, 5, 4, 13, 12, 16, 18, 14, 9]),
[ 'B', 'B', 'B', 'A', 'B', 'A', 'A', 'B', 'A', 'A', 'B', 'A', 'A', 'A', 'A'])

设置stratify=y时，我们发现每次划分后，测试集和训练集中的类标签比例同原始的样本中类标签的比例相同，都为2:3

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

数据分析

机器学习

sklearn.model_selection.train_test_split 的相关文章

DynamodB：如何更新排序键？

该表有两个键 filename 分区键和eventTime 排序键我要更新eventTime对于某些filename Tried put item and update item 发送相同的filename与新的eventTime但这些
使用管理员权限打开cmd（Windows 10）

我有自己的 python 脚本来管理我的计算机上的 IP 地址它主要在命令行 Windows 10 中执行netsh命令您必须具有管理员权限这是我自己的计算机我是管理员运行脚本时我已经使用管理员类型的用户 Adrian 登录我无
使用 Python 和 lmfit 拟合复杂模型？

我想适合椭偏仪 http en wikipedia org wiki Ellipsometry使用 LMFit 将数据转换为复杂模型两个测量参数 psi and delta 是复杂函数中的变量rho 我可以尝试将问题分离为实部和虚部共享参
Scrapy 文件管道不下载文件

我的任务是构建一个可以下载所有内容的网络爬虫 pdfs 在给定站点中 Spider 在本地计算机和抓取集线器上运行由于某种原因当我运行它时它只下载一些但不是全部的 pdf 通过查看输出中的项目可以看出这一点JSON 我已经设定MEDI
Python3将模块从文件夹导入到另一个文件夹

我的结构字典是 mainFolder folder1 init py file1 py file2 py folder2 init py file3 py file4 py setup py init py 我需要将 file4 py 从f
使用 Tkinter 打开网页

因此我的应用程序需要能够打开其中的单个网页并且它必须来自互联网并且未保存特别是我想使用 Tkinter GUI 工具包因为它是我最熟悉的工具包最重要的是我希望能够在窗口中生成事件例如单击鼠标但无需实际使用鼠标有什么好的方法
会话数据库表清理

该表是否需要清除或者由 Django 自动处理 Django 不提供自动清除功能然而有一个方便的命令可以帮助您手动完成此操作 Django 文档清除会话存储 https docs djangoproject com en dev to
如何知道python运行脚本的路径？

sys arg 0 给我 python 脚本例如 python hello py 返回 sys arg 0 的 hello py 但我需要知道 hello py 位于完整路径中的位置我怎样才能用Python做到这一点 os path a
我可以用关闭的文件对象做什么？

当您打开文件时它存储在一个打开的文件对象中该对象使您可以访问该文件的各种方法例如读取或写入 gt gt gt f open file0 gt gt gt f
如何从 python 脚本执行 7zip 命令

我试图了解如何使用 os system 模块来执行 7zip 命令现在我不想用 Popen 或 subprocess 让事情变得复杂我已经安装了 7zip 并将 7zip exe 复制到我的用户文件夹中我只想提取我的测试文件 inst
Snakemake：将多个输入用于具有多个子组的一个输出的规则

我有一个工作管道用于下载比对和对公共测序数据执行变体调用问题是它目前只能在每个样本的基础上工作 i e作为每个单独测序实验的样本如果我想对一组实验例如样本的生物和或技术复制执行变体调用则它不起作用我试图解决它但我无法让它
将图与热图（可能是对数）配对？

How to create a pair plot in Python like the following but with heat maps instead of points or instead of a hex bin plot
如何将 URL 添加到 Telegram Bot 的 InlineKeyboardButton

我想制作一个按钮可以从 Telegram 聊天中在浏览器中打开 URL 外部超链接目前我只开发了可点击的操作按钮 update message reply text Subscribe to us on Facebook and Te
数据损坏 C++ 和 Python 之间的管道

我正在编写一些代码从 Python 获取二进制数据将其通过管道传输到 C 对数据进行一些处理在本例中计算互信息度量然后将结果通过管道传输回 Python 在测试时我发现如果我发送的数据是一组尺寸小于 1500 X 1500 的 2
根据标点符号列表替换数据框中的标点符号[重复]

这个问题在这里已经有答案了使用 Canopy 和 Pandas 我有数据框 a 其定义如下 a pd read csv text txt df pd DataFrame a df columns test test txt 是一个单列文件
如何检测一个二维数组是否在另一个二维数组内？

因此在堆栈溢出成员的帮助下我得到了以下代码 data needle s which is a png image base64 code goes here decoded data decode base64 f cStringIO
为什么从 openAI 导入 Universe 模块时出现“无效语法”错误

当我导入时universe来自 openAI 的模块我收到以下错误 Traceback most recent call last File
PyQt5按钮lambda变量变成布尔值[重复]

这个问题在这里已经有答案了当我运行下面的代码时它显示如下为什么 x 不是 x 而是变成布尔值这种情况仅发生在传递到用 lambda 调用的函数中的第一个参数上错误的 y home me model some file from P
ProcessPoolExecutor 传递多个参数

ESPN播放器免费 class ESPNPlayerFree def init self player id match id match id team 团队名单1 277906 cA2i150s81HI3qbq1fzi za1Oq5CG
Tkinter 将鼠标点击绑定到框架

我一定错过了一些明显的东西我的 Tkinter 程序中有两个框架每个框架在网格布局中都有一堆标签我想将鼠标点击绑定到其中一个而不是另一个我目前使用 root bind

随机推荐

Java抒写简单区块链

区块链的产生基础区块链是一种分布式数据库是一串使用密码学方法相关联产生的数据块链表每个数据块都包含了一次网络交易信息用于验证其信息的有效性和生成下一个区块其特点 1 去中心化实现点对点直接交互既节约资源使交易自主化简易化
【C语法】1124循环结构

include
力扣旋转数组 C语言实现

原题地址 https leetcode cn com explore interview card top interview questions easy 1 array 23 题目描述给定一个数组将数组中的元素向右移动 k 个位置
Tips for Writing Solidity Tests with Truffle

At first glance the Truffle Framework seems to be all setup for writing deploying and testing contracts and it s very we
MarkDown桌面版使用下载+安装+使用教程（包括全套的使用语法，欢迎大家查看）

1 Markdown下载链接 http markdownpad com download html 这是官网下载轻松安装容易 2 markdownPad2的默认免费版本是不包含表格显示功能的但扩展版本里面可以需要破解码升级到pro版
2020年，RPA会给企业财务带来什么样的影响？

机器人流程自动化 Robotic Process Automation 简称RPA 是一种预先设定的程序通过模拟并且增强人与计算机的交互过程将基于规则的常规操作自动化例如读取邮件对账汇总检查文件生成文件和报告等枯燥重复标准化
mysql update执行报错：You can‘t specify target table ‘表名‘ for update in FROM clause错误

根源分组查询想着根据需求更新一些数据如下sql 然后报错了平常使用这种情况不多在此记录一下错我的大概意思不能先select出同一表中的某些值再update这个表在同一语句中一报错SQL update scale scor
今天终于知道了pragma once 与 #ifndef _XXX_H_ #define _XXX_H_的区别

今天终于知道了pragma once 与 ifndef XXX H define XXX H 的区别 pragma once 之前一直用的很好今天和同事的配合中发现自己没有真正理解pragma once 原因同事喜欢把公共的头文件通过生
经历过各种因为tomcat配置导致的bug，现整理一下tomcat各版本经常会调的参数的默认配置，仅供参考

tomcat7 默认端口 8080 默认协议类型 BIO 默认线程池大小 200 默认等待队列大小 100 默认最大连接数 BIO模式下默认最大连接数是它的最大线程数缺省是200 默认超时时间 20秒默认Post请求大小 2MB 默认请
【第31篇】NAM：基于标准化的注意力模块

文章目录摘要 1 简介 2 相关工作 3 方法 4 实验 5 结论摘要论文地址 https arxiv org abs 2111 12419 Github https github com Christian lyc NAM 识别不太
Ubuntu18.04 安装python-pcl

Ubuntu18 04 安装python pcl 概述 python2 7环境安装python pcl python3 7环境安装python pcl 参考文献概述由于ubuntu18 04通过sudo apt get install
区块链-Linux下USDT测试节点搭建

本文转载自https lhalcyon com blockchain usdt node Tether Limited 公司基于 Omni Layer 这层协议 Omni Layer protocol 发行tetherUSD Omni La
【无线传感器】使用 MATLAB和 XBee连续监控温度传感器无线网络研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及数据 1 概述在本文中 MATLAB 用于通过与使用
MSSQL内置数据库角色及访问权限设置

MSSQL数据库内置数据库角色在MSSQL数据库中有一些内置的数据库角色这些角色具有特定的权限和功能以下是常见的内置角色 sysadmin sysadmin是服务器级别的角色拥有最高权限 sysadmin可以执行服务器上的任何操作
搭建IFS虚拟机

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档文章目录前言一 pandas是什么二使用步骤 1 引入库 2 读入数据总结前言开发任务羿鹏项目ats与iscs通信协议中新增了ats向iscs发送屏蔽门状态信
五分钟学Java：为什么会发生ArrayIndexOutOfBoundsException？

在逛 Stack Overflow 的时候发现了一些访问量像昆仑山一样高的问题比如说这个为什么会发生 ArrayIndexOutOfBoundsException 这样看似简单到不值得一问的问题访问量足足有 69万这不得了啊说明
多对一查询方法

1 sql文件 CREATE TABLE teacher id INT 10 NOT NULL name VARCHAR 30 DEFAULT NULL PRIMARY KEY id ENGINE INNODB DEFAULT CHARSE
git push 失败与解决方法汇总

1 http链接失败现象 Permission denied publickey fatal the remote hang up unexpectly 原因 http链接失败解决方法 1 生成ssh密钥 2 然后将公钥拷贝到gitup
VNDK extensions

Android P要求开VNDK 如果HAL需要链接android原生库原生库的Android bp必须包含下面内容如果没有对原生库做任何修改编译不会出现问题如果对原生库做了修改这个时候编译会出错会提示不允许链接该库这个时候就
sklearn.model_selection.train_test_split

数据集划分 sklearn model selection train test split arrays options 主要参数说明 arrays 可以是列表 numpy数组 scipy稀疏矩阵或pandas的数据框 test size

sklearn.model_selection.train_test_split

sklearn.model_selection.train_test_split 的相关文章

随机推荐

热门标签