Python机器学习:train_test_split()划分数据集

2023-05-16

调用sklearn里面的model_selection包的train_test_split()函数可以一行代码划分好数据集。

包名:

from sklearn.model_selection import train_test_split

代码:

x = data.drop(['Exited'],axis=1)
y = data['Exited']
X_train, X_test, y_train, y_test = train_test_split(x,y,test_size = 0.2, random_state = 0)

代码讲解:

x是经过特征工程编码好的数据,一般训练集和测试集一起做编码;但还没有标准化,因为标准化要放在划分数据集后面进行。

drop()函数把除了因变量以外的自变量都保留了,保存在数据集x里。

y是结果,是因变量,比如是否留存、是否购买等。

train_test_split()方法括号里面的顺序是(自变量数据,因变量数据,测试集划分比例test_size,随机种子random_state )。

test_size 设置划分的比例,这里是预留20%的数据作为测试集。

random_state 是随机种子,可以随便写一个数字(详细作用见最后面“随机种子的作用”)。

X_train, X_test, y_train, y_test的顺序是:训练集的自变量、测试集的自变量、训练集的因变量、测试集的因变量。

运行结果,按0.2的比例划分好数据集啦:

随机种子的作用:一般随机的结果是和系统时间有关的,在不同的时间运行,得到的数据分组会不一样。这样就会导致即便还没开始调参,每次运行都能得到不同的准确率,就没办法判断是不是通过优化数据集或者调参带来的影响了。设置了随机种子之后,每次重新运行之后随机分的结果是一样的。有了确定的随机种子,别人在拿到你的代码的时候就可以复现得到一样的结果了。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python机器学习:train_test_split()划分数据集 的相关文章

随机推荐

  • device instance IDS(设备范例ID)

    系统提供的设备的设备范例ID是一个唯一标识系统中的设备标识字符串 即插即用 xff08 PnP xff09 管理为系统设备树 xff08 device tree xff09 的每个设备节点 xff08 devnode xff09 分配设备范
  • 在thinkpad上安装(kde)debian wheezy/sid (Note of install (kde)debian wheezy/sid on Thinkpad)

    亲测机型 Thinkpad T420 爱机 1 下载镜像文件 debian testing amd64 DVD 1 iso axel a http cdimage debian org cdimage weekly builds amd64
  • cscope无法索引代码树之外的软链接

    背景 xff1a 为什么非要使用cscope xff1f 不用ctags xff1f 尽管ctags可以索引软链接 xff0c 但是 xff0c ctags不能查找 调用者 xff0c 比如 xff1a 你想看看某个函数在哪些位置被调用了
  • 爬虫常见错误以及难点(一)

    目录 常见错误一 常见错误二 常见错误三 常见错误四 难点 xff1a 难点一 难点二 难点三 难点四 难点五 难点六 难点七 难点八 难点九 难点十 难点十一 难点十二 难点十三 难点十四 难点十五 难点十六 常见错误一 就是设置 hea
  • Linux下开启和禁用触摸板-转

    本文转自 xff1a https blog csdn net junmuzi article details 38491093 感谢原作者分享 电脑型号 xff1a DELL G3 操作系统 xff1a Linux 16 04 LTS 打开
  • function declared implicitly的正确解决方法

    使用GUIBuilder创建了两个 c文件 xff0c 需要在其中一个文件中调用另一个文件的函数 xff0c 他们初始只有 include DIALOG h xff0c 在编译只有一个警告 xff0c declared implicitly
  • Jetson TX2物理引脚与虚拟引脚映射计算

    Data 2017 11 17 Author cjh Theme Jetson TX2物理引脚与虚拟引脚映射计算 最近需要控制Jetson TX2 J21那一排的引脚 xff0c 发现其规律和TX2相距甚远 xff0c 网上NVIDIA的论
  • SVN

    转自 http blog csdn net gexiaobaohelloworld article details 7752862 SVN简介 SVN xff08 Subversion xff09 是一个自由 开源的项目源代码版本控制工具
  • svn使用的适用技巧

    关于SVN的使用 xff0c 这里整理两个重要的问题 xff1a 1 svn不能commit so 2 34 a 34 等库文件 xff1a svn add 还是 svn st 均查看不到想要提交的 so 文件 后来才知道原来是配置文件出了
  • calico更换ip地址池-k8s

    注意 xff1a 生产环境更换ip地址池会导致网络中断 xff0c 请慎重 在Kubernetes中 xff0c 以下所有三个参数必须等于或包含Calico IP池CIDR xff1a kube apiserver xff1a pod ne
  • Centos 7安装GNOME桌面环境

    第一步 xff1a 列出可安装的桌面环境 span class token punctuation span root 64 local span class token punctuation span span class token
  • Linux anaconda3 安装python版zeroc-ice 3.7.3报 undefined symbol: SSLeay

    原因 xff1a linux通过 pip install zeroc ice 61 61 3 7 3时会从源文件重新编译一个二进制版本 xff0c windows与macos不会重新编译 编译过程依赖openssl 但是centos7版本的
  • npm install提示没有权限

    npm install unsafe perm 61 true allow root
  • mysql排序后分页出现的数据混乱

    原因 xff1a 排序的字段值不唯一 xff0c 值相同时排序顺序不固定 解决方法 xff1a 增加排序字段改用值唯一的字段排序
  • Ubuntu安装mysql,修改数据存储目录

    1 创建目录并修改目录权限 mkdir home abc data chown R mysql mysql home abc data 2 修改mysql配置文件 etc mysql my cnf xff0c 增加以下配置 mysqld d
  • 获取CAS全部配置说明

    直接下载 xff1a CAS Server全部配置详解 通过cas bootadmin获取 通过CAS Initializr获取模块cas bootadmin server overlay curl http localhost 8080
  • SpringBoot配置SSL(https)

    生成证书 keytool genkey alias cas keyalg RSA validity 999 keysize 2048 storetype PKCS12 keypass aaaaaa storepass aaaaaa keys
  • 2018年秋招面经

    Data 2017 10 30 Author cjh 一不小心秋招都结束了 xff0c 趁还有些印象 xff0c 留下点东西造福大众 秋招一般聚集在9月初到10月底 xff0c 大公司快的有些8月中旬就开始了 xff0c 所以大家要把握时间
  • CAS Client部署

    参考内容 官方参考文档 xff1a Java Cas Client Cas Server部署参考 CAS Server部署 xff0c 基于版本6 6 4 修改配置 添加依赖 lt dependency gt lt groupId gt o
  • Python机器学习:train_test_split()划分数据集

    调用sklearn里面的model selection包的train test split 函数可以一行代码划分好数据集 包名 xff1a from sklearn model selection import train test spl