Python机器学习：train_test_split()划分数据集

2023-05-16

调用sklearn里面的model_selection包的train_test_split()函数可以一行代码划分好数据集。

包名：

from sklearn.model_selection import train_test_split

代码：

x = data.drop(['Exited'],axis=1)
y = data['Exited']
X_train, X_test, y_train, y_test = train_test_split(x,y,test_size = 0.2, random_state = 0)

代码讲解：

x是经过特征工程编码好的数据，一般训练集和测试集一起做编码；但还没有标准化，因为标准化要放在划分数据集后面进行。

drop()函数把除了因变量以外的自变量都保留了，保存在数据集x里。

y是结果，是因变量，比如是否留存、是否购买等。

train_test_split()方法括号里面的顺序是(自变量数据，因变量数据，测试集划分比例test_size，随机种子random_state )。

test_size 设置划分的比例，这里是预留20%的数据作为测试集。

random_state 是随机种子，可以随便写一个数字（详细作用见最后面“随机种子的作用”）。

X_train, X_test, y_train, y_test的顺序是：训练集的自变量、测试集的自变量、训练集的因变量、测试集的因变量。

运行结果，按0.2的比例划分好数据集啦：

随机种子的作用：一般随机的结果是和系统时间有关的，在不同的时间运行，得到的数据分组会不一样。这样就会导致即便还没开始调参，每次运行都能得到不同的准确率，就没办法判断是不是通过优化数据集或者调参带来的影响了。设置了随机种子之后，每次重新运行之后随机分的结果是一样的。有了确定的随机种子，别人在拿到你的代码的时候就可以复现得到一样的结果了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python机器学习：train_test_split()划分数据集的相关文章

C++程序员经常问的11个问题

下面的这些要点是对所有的C 43 43 程序员都适用的我之所以说它们是最重要的 xff0c 是因为这些要点中提到的是你通常在C 43 43 书中或网站上无法找到的如 xff1a 指向成员的指针 xff0c 这是许多资料中都不愿提到的地方
Ubuntu配置任意版本的apt-get镜像

我们知道 xff0c 迄今为止 xff0c Ubuntu已有多个发行版 xff0c 如11 04 11 10 xff0c 以至于现在最新的16 而我们平常通过apt get来安装软件 xff0c 如果OS版本不同 xff0c 那么镜像源的配
在APK中获取鸿蒙应用Ability信息

Android开发工具箱大概在版本2 2 0 xff08 2021 06 10 xff09 就已经支持查看鸿蒙系统信息以及鸿蒙应用信息了这里我讲一下Android开发工具箱是如何在Android应用中 xff08 APK xff09 获取
Maven

Maven Maven 翻译为 34 专家 34 内行 Maven 是一个项目管理工具 xff0c 可以对 Java 项目进行构建依赖管理它包含了一个项目对象模型 POM Project Object Model 一组标准集合 xff0
Jetson TX1内核kernel编译与烧写

Data 2017 09 13 Author cjh Theme Jetson TX1内核kernel编译与烧写 PS xff1a 本人用的JetPack版本为3 0 1 Getting bootloader and kernel 本文内核
关于ST-linkV2的修复问题-----重新烧录固件

之前一直用串口下载C8t6 xff0c 后面发现不如link方便 xff0c 然后在这个月换回来st link之后下载了一次就坏了 xff0c 一直没用 xff0c 让我在网上找了很多攻略 xff0c 也没有翻出头绪 xff0c 然后就想重
Udacity cs344-Introduction to Parallel Programming学习笔记-第三单元

1 第一个quiz答案 xff1a 6 xff0c 21 xff0c 问题很简单 xff0c 数一下就好了 2 什么是归约操作归约操作有两个输入 xff1a 1 xff09 输入对象的集合 2 xff09 归约运算符 xff1a 满足
win7+VS2010安装CUDA5.5（图文完整版）

NVIDIA于2006年推出CUDA xff08 Compute Unified Devices Architecture计算统一设备架构 xff09 xff0c 可以利用其推出的GPU进行通用计算 xff0c 将并行计算从大型集群扩展到了
Udacity cs344-Introduction to Parallel Programming学习笔记-如何在VS环境下编译课程习题代码

Udacity的这个CUDA课程非常不错 xff0c 提供了一个在线的编辑编译运行平台 xff0c 我们可以直接在web上完成代码编辑提交查看运行结果 xff0c 但是 xff0c 有时候 xff0c 面对比较复杂的问题 xff0c
在VS2010下的CUDA程序中出现错误error : identifier “atomicAdd” is undefined

今天写代码的时候用到了原子操作 xff0c 也就是atomicAdd 操作 xff0c 但是发现编译的时候会出现问题 xff0c 报的错误是 xff1a error identifier atomicAdd is undefined 经过一
Udacity cs344-Introduction to Parallel Programming学习笔记-第四单元

1 第一个quiz答案 xff1a work xff1a o xff08 n xff09 xff0c step xff1a o xff08 logn xff09 2 第二个quiz答案 xff1a large expensive 3 第三个
在VS2010下如何使用头文件unistd.h

在编译CUDA random forest有关的项目的时候出现了如上错误 xff0c 从网上下载了这个头文件然后加入到项目里面还是不行查了下资料 xff0c 头文件unistd h是Linux Unix的系统调用 xff0c 包含了许多U
calling a __host__ function("_wassert") from a __global__ function is not allowed错误

今天在调试代码的时候碰到一个错误 xff1a calling a host function 34 wassert 34 from a global function is not allowed 经过查找后 xff0c 发现问题出在VS2
教你如何使用Docker部署Prometheus，全套教程，一步到位，避坑

前言本文使用doker部署Prometheus 文中命令直接复制粘贴即可一概念 Prometheus是一个开源的系统监控和报警系统它前身是SoundCloud的警告工具包二组件介绍 1 Node Exporter 收集服务器硬件
linux和windows时间同步问题(UTC&localtime)

Linux使用 UTC xff0c 但是windows默认使用localtime 解决的办法如下 xff08 重启后生效 xff09 进入windows使用regedit写入DWORD值设置成十六进制 34 1 34 xff1a HKEY
Jetson TX1uboot编译与烧写

Data 2017 09 14 Author cjh Theme Jetson TX1uboot编译与烧写 64 TX1 Linux for Tegra 64 tx1 PS xff1a uboot源码下载 xff0c 参见Jetson TX
中断下半部_工作队列(work queue)

1 gt work queue lt linux workqueue h gt 3 0 4 2 gt description 中断下半部 xff0c 在内核线程的进程上下文中执行推后的工作它是唯一能在进程上下文运行的中断下半部实现机制 x
ubuntu systray(系统托盘)图标问题

systray上应用程序的图标无法显示 1 install dconf tools and run 34 dconf editor 34 2 add your application want to show in systray to D
我的减肥经历和一些经验[1]

概述 xff1a 减肥是一件比较辛苦的事情 xff0c 不但要下苦还要坚持下苦减肥有很多方式 xff1a 比如单纯节食 xff08 这个显然会弄坏自己的胃 xff0c 不提倡 xff09 xff1b 比如抽脂 xff08 这个听着有点
linux USB monitor 【linux usb抓包】

linux stable Documentation usb usbmon txt Introduction The name 34 usbmon 34 in lowercase refers to a facility in kernel

随机推荐

device instance IDS(设备范例ID)

系统提供的设备的设备范例ID是一个唯一标识系统中的设备标识字符串即插即用 xff08 PnP xff09 管理为系统设备树 xff08 device tree xff09 的每个设备节点 xff08 devnode xff09 分配设备范
在thinkpad上安装(kde)debian wheezy/sid (Note of install (kde)debian wheezy/sid on Thinkpad)

亲测机型 Thinkpad T420 爱机 1 下载镜像文件 debian testing amd64 DVD 1 iso axel a http cdimage debian org cdimage weekly builds amd64
cscope无法索引代码树之外的软链接

背景 xff1a 为什么非要使用cscope xff1f 不用ctags xff1f 尽管ctags可以索引软链接 xff0c 但是 xff0c ctags不能查找调用者 xff0c 比如 xff1a 你想看看某个函数在哪些位置被调用了
爬虫常见错误以及难点（一）

目录常见错误一常见错误二常见错误三常见错误四难点 xff1a 难点一难点二难点三难点四难点五难点六难点七难点八难点九难点十难点十一难点十二难点十三难点十四难点十五难点十六常见错误一就是设置 hea
Linux下开启和禁用触摸板-转

本文转自 xff1a https blog csdn net junmuzi article details 38491093 感谢原作者分享电脑型号 xff1a DELL G3 操作系统 xff1a Linux 16 04 LTS 打开
function declared implicitly的正确解决方法

使用GUIBuilder创建了两个 c文件 xff0c 需要在其中一个文件中调用另一个文件的函数 xff0c 他们初始只有 include DIALOG h xff0c 在编译只有一个警告 xff0c declared implicitly
Jetson TX2物理引脚与虚拟引脚映射计算

Data 2017 11 17 Author cjh Theme Jetson TX2物理引脚与虚拟引脚映射计算最近需要控制Jetson TX2 J21那一排的引脚 xff0c 发现其规律和TX2相距甚远 xff0c 网上NVIDIA的论
SVN

转自 http blog csdn net gexiaobaohelloworld article details 7752862 SVN简介 SVN xff08 Subversion xff09 是一个自由开源的项目源代码版本控制工具
svn使用的适用技巧

关于SVN的使用 xff0c 这里整理两个重要的问题 xff1a 1 svn不能commit so 2 34 a 34 等库文件 xff1a svn add 还是 svn st 均查看不到想要提交的 so 文件后来才知道原来是配置文件出了
calico更换ip地址池-k8s

注意 xff1a 生产环境更换ip地址池会导致网络中断 xff0c 请慎重在Kubernetes中 xff0c 以下所有三个参数必须等于或包含Calico IP池CIDR xff1a kube apiserver xff1a pod ne
Centos 7安装GNOME桌面环境

第一步 xff1a 列出可安装的桌面环境 span class token punctuation span root 64 local span class token punctuation span span class token
Linux anaconda3 安装python版zeroc-ice 3.7.3报 undefined symbol: SSLeay

原因 xff1a linux通过 pip install zeroc ice 61 61 3 7 3时会从源文件重新编译一个二进制版本 xff0c windows与macos不会重新编译编译过程依赖openssl 但是centos7版本的
npm install提示没有权限

npm install unsafe perm 61 true allow root
mysql排序后分页出现的数据混乱

原因 xff1a 排序的字段值不唯一 xff0c 值相同时排序顺序不固定解决方法 xff1a 增加排序字段改用值唯一的字段排序
Ubuntu安装mysql，修改数据存储目录

1 创建目录并修改目录权限 mkdir home abc data chown R mysql mysql home abc data 2 修改mysql配置文件 etc mysql my cnf xff0c 增加以下配置 mysqld d
获取CAS全部配置说明

直接下载 xff1a CAS Server全部配置详解通过cas bootadmin获取通过CAS Initializr获取模块cas bootadmin server overlay curl http localhost 8080
SpringBoot配置SSL（https）

生成证书 keytool genkey alias cas keyalg RSA validity 999 keysize 2048 storetype PKCS12 keypass aaaaaa storepass aaaaaa keys
2018年秋招面经

Data 2017 10 30 Author cjh 一不小心秋招都结束了 xff0c 趁还有些印象 xff0c 留下点东西造福大众秋招一般聚集在9月初到10月底 xff0c 大公司快的有些8月中旬就开始了 xff0c 所以大家要把握时间
CAS Client部署

参考内容官方参考文档 xff1a Java Cas Client Cas Server部署参考 CAS Server部署 xff0c 基于版本6 6 4 修改配置添加依赖 lt dependency gt lt groupId gt o
Python机器学习：train_test_split()划分数据集

调用sklearn里面的model selection包的train test split 函数可以一行代码划分好数据集包名 xff1a from sklearn model selection import train test spl

Python机器学习：train_test_split()划分数据集

Python机器学习：train_test_split()划分数据集 的相关文章

随机推荐

热门标签

Python机器学习：train_test_split()划分数据集的相关文章