scikit-learn机器学习笔记——sklearn数据集,数据集划分,估计器

2023-11-12

sklearn数据集

scikit-learn数据集API介绍

  • sklearn.datasets
    • 加载获取流行数据集

    • datasets.load_*()

      • 获取小规模数据集,数据包含在datasets里
    • datasets.fetch_*(data_home=None)

      • 获取大规模数据集,需要从网络上下载,函 数的第一个参数是data_home,表示数据集 下载的目录,默认是 ~/scikit_learn_data/

获取数据集返回的类型

  • load* 和 fetch*返回的数据类型datasets.base.Bunch(字典格式)
  • data:特征数据数组,是 [n_samples * n_features] 的二维 numpy.ndarray 数组
  • target:标签数组,是 n_samples 的一维 numpy.ndarray 数组
  • DESCR:数据描述
  • feature_names:特征名,新闻数据,手写数字、回归数据集没有
  • target_names:标签名,回归数据集没有

sklearn分类数据集

sklearn.datasets.load_iris() 加载并返回鸢尾花数据集
在这里插入图片描述
sklearn.datasets.load_digits() 加载并返回数字数据集
在这里插入图片描述

用于分类的大数据集

sklearn.datasets.fetch_20newsgroups(data_home=None,subset=‘all’)

• subset: ‘train’或者’test’,‘all’,可选,选择要加载的数据集. 训练集的“训练”,测试集的“测试”,两者的“全部”

datasets.clear_data_home(data_home=None)
• 清除目录下的数据

sklearn回归数据集

sklearn.datasets.load_boston() 加载并返回波士顿房价数据集
在这里插入图片描述
sklearn.datasets.load_diabetes() 加载和返回糖尿病数据集

在这里插入图片描述

数据集划分

机器学习一般的数据集会划分为两个部分:

  • 训练数据:用于训练,构建模型 。
  • 测试数据:在模型检验时使用,用于评估模型是否有效。

sklearn数据集划分API

sklearn.model_selection.train_test_split(*arrays, **options)

• x 数据集的特征值
• y 数据集的标签值
• test_size 测试集的大小,一般为float
• random_state 随机数种子,不同的种子会造成不同的随机 采样结果。相同的种子采样结果相同。

• return 训练集特征值,测试集特征值,训练标签,测试标签 (默认随机取)

sklearn机器学习算法的实现-估计器

  在sklearn中,估计器(estimator)是一个重要的角色,分类器和回归器都属于estimator,是一类实现了算法的API。

1、用于分类的估计器:
sklearn.neighbors k-近邻算法
sklearn.naive_bayes 贝叶斯
sklearn.linear_model.LogisticRegression 逻辑回归

2、用于回归的估计器:
sklearn.linear_model.LinearRegression 线性回归
sklearn.linear_model.Ridge 岭回归

估计器的工作流程

在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

scikit-learn机器学习笔记——sklearn数据集,数据集划分,估计器 的相关文章

随机推荐

  • os.walk详解

    https www jianshu com p bbad16822eab python中os walk是一个简单易用的文件 目录遍历器 可以帮助我们高效的处理文件 目录方面的事情 1 载入 要使用os walk 首先要载入该函数 可以使用以
  • 关于MP3文件中找不到TAG标签的问题

    今天做项目需要上传mp3文件 在postman中测试的时候发现找不到这个mp3文件中的TAG标签 心想着不应该啊 我这是正规音频啊 如果是图片把后缀改成mp3没有TAG是肯定的 但是我这个音频为什么也没有呢 经过百度一番 初步判断有可能问题
  • xcode常用快捷键 快捷生成代码分享

    快速打印 NSLog lt text gt 快速string NSString 快速for循环 for int i 0 i lt lt max gt i lt code gt 快速setter和getter property lt type
  • STM32F103 - 配置规则通道参数 - 05 - unfinished -unfinished-unfinished

    五 配置规则通道参数 设置指定ADC的规则组通道 一个序列 采样时间 常规通道配置 ADC RegularChannelConfig ADC1 ch 1 ADC SampleTime 239Cycles5 ADC1 ADC通道 采样时间为2
  • ubuntu安装教程及docker安装容器,前后端部署

    1 0 Linux的常用命令 删除目录中的文件 rm fate txt 删除一个目录及其内容 rm r dir r 选项作用递归删除目录及其子目录中的所有内容 dir是文件夹名称 创建一个文件 touch fate txt 创建的是一个空文
  • CentoS8 安装篇十一:ngrok内网穿透工具搭建

    一 准备工作 1 外网域名 域名备案 2 服务器 有固定ip 3 服务器开放端口 80 443 4443 端口下面使用 注意与其他端口有冲突 4 域名映射 下面使用到ngrok xxx com必须映射至该服务器 5 添加泛域名映射至该服务器
  • R

    文章目录 Windows下更新R版本及Rstudio 一 更新R版本 二 Rstudio中更新R Windows下更新R版本及Rstudio 在R中安装一些包时 经常会出现包与旧版本R不兼容的问题 所以就对Windows下R的版本进行了更新
  • python数据精度问题

    优质资源分享 学习路线指引 点击解锁 知识定位 人群定位 Python实战微信订餐小程序 进阶级 本课程是python flask 微信小程序的完美结合 从项目搭建到腾讯云部署上线 打造一个全栈订餐系统 Python量化交易实战 入门级 手
  • go实现bcrypt加密

    什么是bcrypt Bcrypt 是一款加密工具 它生成的密文是60位的 而且每次加密生成的值是不一样的 MD5 加密虽然不可逆 但是它每次生成的密文是相同的 这便给暴力破解留下了余地 所以推荐使用bcrypt进行加密 简单实现 packa
  • Linux 后台运行的进程printf输出到什么地方,是否消耗内存

    分析 正常情况下printf 输出到 stdout 输出流 可以通过 freopen 改变 stdout 转向到du文件 例如 freopen test txt w stdout printf abcd 98765 会把 abcd 9876
  • 【专题5:硬件设计】 之 【48.推挽电路驱动MOS管】

    嵌入式工程师成长之路 系列文章 总目录 系列文章总目录 希望本是无所谓有 无所谓无的 这正如脚下的路 其实地上本没有路 走的人多了 也便成了路 原创不易 文章会持续更新 欢迎微信扫码关注公众号 承接 小程序 嵌入式 PC端项目开发 联系作者
  • 数据库设计——表的关系与范式

    一 表的关系 1 一对一关系 1 1 概念描述 例如 一个人只能拥有一张身份证 一张身份证也只能对应一个人 那么这里的一个人和身份证就是一对一的关系 多表之间一对一关系如何实现 两个一对一关系的表 可以在任意一方添加外键 并将外键指向另一方
  • CMake INSTALL

    2019独角兽企业重金招聘Python工程师标准 gt gt gt 原文 http blog csdn net yangfeng2014 article details 50638601 本帖子适用于初学者 StepByStep的入门CMa
  • 前端js下载zip文件异常问题解决

    目录 一 本文解决问题如下 二 原下载代码 1 ajax get 下载文件 2 下载异常图 三 成功下载的 1 JQuery 实现文件下载xhr 2 图例 引言 本人使用的ajax 下载 由于下载CSV 文本之类的没有问题 下载zip是出现
  • 关于UnicodeDecodeError: 'gbk' codec can't decode byte的解决办法

    问题描述 UnicodeDecodeError gbk codec can t decode byte 0xae in position 199 illegal multibyte sequence 这个 机器学习实战 朴素贝叶斯算法中遇到
  • 人物介绍左右切换slider

    下载地址js人物介绍左右切换slider效果代码 带左右按钮控制列表滑动切换效果 可用于企业团队人物介绍ui布局 dd
  • 实在智能数字干警“执勤”反诈中心,预警劝阻止诈效率提高300%

    8月 取材自真实诈骗案例的电影 孤注一掷 给观众带来持久的震撼 作为国内首部揭秘境外网络诈骗全产业链内幕的现实题材电影 孤注一掷 将境外诈骗黑暗和残忍的一面直观呈现在大家眼前 随着影片的播出 反诈话题 热度再次升温 也让我们意识到电信网络诈
  • kafka 常用命令行命令

    1 创建topic kafka topics sh create zookeeper zookeeper01 2181 replication factor 1 partitions 1 topic test 2 消费端 消费数据 kafk
  • 【ESP32C3&合宙ESP32C3】:ESP32C3和合宙ESP32C3的环境搭建与离线包安装

    项目场景 最近买了一块合宙ESP32C3的开发板 于是想要开发一下 当然开发最开始少不掉开发环境的搭建 在这个搭建的过程中 遇到了一些问题 解决了 也希望能帮助到大家 ESP32C3 和 合宙ESP32C3 在arduino中可以用同一种方
  • scikit-learn机器学习笔记——sklearn数据集,数据集划分,估计器

    scikit learn机器学习笔记 sklearn数据集 数据集划分 估计器 sklearn数据集 scikit learn数据集API介绍 获取数据集返回的类型 sklearn分类数据集 用于分类的大数据集 sklearn回归数据集 数