机器学习算法的随机数据生成

2023-10-28

作者:刘建平Pinard

链接:https://www.cnblogs.com/pinard/p/6047802.html

编辑:石头

‍‍‍‍在学习机器学习算法的过程中,我们经常需要数据来验证算法,调试参数。但是找到一组十分合适某种特定算法类型的数据样本却不那么容易。还好numpy, scikit-learn都提供了随机数据生成的功能,我们可以自己生成适合某一种模型的数据,用随机数据来做清洗,归一化,转换,然后选择模型与算法做拟合和预测。下面对scikit-learn和numpy生成数据样本的方法做一个总结。

完整代码参见github:

https://github.com/ljpzzz/machinelearning/blob/master/mathematics/random_data_generation.ipynb

目录


1. numpy随机数据生成API

2. scikit-learn随机数据生成API介绍    

3. scikit-learn随机数据生成实例

1. numpy随机数据生成API

‍‍‍‍

numpy比较适合用来生产一些简单的抽样数据。API都在random类中,常见的API有:

1) rand(d0, d1, ..., dn) 用来生成d0×d1×...dn维的数组 。数组的值在[0,1)之间

例如: np.random.rand(3,2,2),输出如下3×2×2的数组

array([[[ 0.49042678,  0.60643763],
        [ 0.18370487,  0.10836908]],

       [[ 0.38269728,  0.66130293],
        [ 0.5775944 ,  0.52354981]],

       [[ 0.71705929,  0.89453574],
        [ 0.36245334,  0.37545211]]]) 

2) randn((d0, d1, ..., dn) 也是用来生成d0xd1x...dn维的数组。不过数组的值服从N(0,1)的标准正态分布。

例如:np.random.randn(3,2),输出如下3x2的数组,这些值是N(0,1)的抽样数据。

array([[-0.5889483 , -0.34054626],
       [-2.03094528, -0.21205145],
       [-0.20804811, -0.97289898]])

如果需要服从的正态分布,只需要在randn上每个生成的值x上做变换即可 。

例如: 2*np.random.randn(3,2) + 1,输出如下3x2的数组,这些值是N(1,4)的抽样数据。

array([[ 2.32910328, -0.677016  ],
       [-0.09049511,  1.04687598],
       [ 2.13493001,  3.30025852]])

3) randint(low[, high, size]),生成随机的大小为size的数据,size可以为整数,为矩阵维数,或者张量的维数。值位于半开区间 [low, high)。

例如:np.random.randint(3, size=[2,3,4])返回维数维2x3x4的数据,取值范围为最大值为3的整数。

      array([[[2, 1, 2, 1],
          [0, 1, 2, 1],
          [2, 1, 0, 2]],

          [[0, 1, 0, 0],
          [1, 1, 2, 1],
          [1, 0, 1, 2]]])

再比如: np.random.randint(3, 6, size=[2,3]) 返回维数为2x3的数据。取值范围为[3,6).

                                    array([[4, 5, 3],
                                        [3, 4, 5]])

4) random_integers(low[, high, size]),和上面的randint类似,区别在于取值范围是闭区间[low, high]。

5) random_sample([size]),返回随机的浮点数,在半开区间 [0.0, 1.0)。如果是其他区间[a,b),可以加以转换(b - a) * random_sample([size]) + a

例如: (5-2)*np.random.random_sample(3)+2 返回[2,5)之间的3个随机数。

array([ 2.87037573,  4.33790491,  2.1662832 ]) 

2. scikit-learn随机数据生成API介绍

scikit-learn生成随机数据的API都在datasets类之中,和numpy比起来,可以用来生成适合特定机器学习模型的数据。常用的API有:

1) 用make_regression生成回归模型的数据

2) 用make_hastie_10_2,make_classification或者make_multilabel_classification生成分类模型数据

3) 用make_blobs生成聚类模型数据

4) 用make_gaussian_quantiles生成分组多维正态分布的数据

3. scikit-learn随机数据生成实例

3.1 回归模型随机数据

这里我们使用make_regression生成回归模型数据。几个关键参数有n_samples(生成样本数), n_features(样本特征数),noise(样本随机噪音)和coef(是否返回回归系数)。例子代码如下:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets.samples_generator import make_regression
 
# X为样本特征,y为样本输出, coef为回归系数,共1000个样本,每个样本1个特征
X, y, coef =make_regression(n_samples=1000, n_features=1,noise=10, coef=True)
# 画图
plt.scatter(X, y,  color='black')plt.plot(X, X*coef, color='blue',linewidth=3)plt.xticks(())plt.yticks(())plt.show()

输出的图如下:

3.2 分类模型随机数据

这里我们用make_classification生成三元分类模型数据。几个关键参数有n_samples(生成样本数), n_features(样本特征数), n_redundant(冗余特征数)和n_classes(输出的类别数),例子代码如下:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets.samples_generator import make_classification
 
# X1为样本特征,Y1为样本类别输出, 共400个样本,每个样本2个特征,输出有3个类别,没有冗余特征,每个类别一个簇
X1, Y1 = make_classification(n_samples=400, n_features=2, n_redundant=0,                             n_clusters_per_class=1, n_classes=3)plt.scatter(X1[:, 0], X1[:, 1], marker='o', c=Y1)plt.show()

输出的图如下:

3.3 聚类模型随机数据

这里我们用make_blobs生成聚类模型数据。几个关键参数有n_samples(生成样本数), n_features(样本特征数),centers(簇中心的个数或者自定义的簇中心) 和 cluster_std(簇数据方差,代表簇的聚合程度)。例子如下:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets.samples_generator import make_blobs
 
# X为样本特征,Y为样本簇类别, 共1000个样本,每个样本2个特征,共3个簇,簇中心在[-1,-1], [1,1], [2,2], 簇方差分别为[0.4, 0.5, 0.2]
X, y = make_blobs(n_samples=1000, n_features=2, centers=[[-1,-1], [1,1], [2,2]], cluster_std=[0.4, 0.5, 0.2])plt.scatter(X[:, 0], X[:, 1], marker='o', c=y)plt.show()

输出的图如下:

3.4 分组正态分布混合数据

  我们用make_gaussian_quantiles生成分组多维正态分布的数据。几个关键参数有n_samples(生成样本数), n_features(正态分布的维数),mean(特征均值),cov(样本协方差的系数), n_classes(数据在正态分布中按分位数分配的组数)。例子如下:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_gaussian_quantiles
#生成2维正态分布,生成的数据按分位数分成3组,1000个样本,2个样本特征均值为1和2,协方差系数为2
X1, Y1 = make_gaussian_quantiles(n_samples=1000, n_features=2, n_classes=3, mean=[1,2],cov=2)plt.scatter(X1[:, 0], X1[:, 1], marker='o', c=Y1)

输出图如下:

以上就是生产随机数据的一个总结,希望可以帮到学习机器学习算法的朋友们。

欢迎扫码关注:

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习算法的随机数据生成 的相关文章

  • VS 配置Qt 开发组件

    VS 配置Qt 步骤比较简单 入门级吧 按照如下几步即可快速配置 希望可以帮到你 一 安装VS Qt组件 1 方法一 扩展 gt 管理扩展 gt 联机 搜素Qt Visual Studio Tools 工具 自动下载完成 按照向导提示正常安
  • 深入解析JS工程逆中的反爬机制

    在当今互联网时代 爬虫技术被广泛应用于数据采集 搜索引擎优化等领域 然而 许多网站为了保护其数据和资源 采取了各种反爬机制 JS逆工程是其中一种常见的反爬手段 通过在网页中利用JavaScript代码动态生成内容 使得爬虫难以获取有效数据
  • ansible批量自动安装LNMP

    转载于 https www cnblogs com hai better p 9995258 html
  • 算法[动态规划]---买卖股票最佳时机

    1 题目 给你一个整数数组 prices 其中 prices i 表示某支股票第 i 天的价格 在每一天 你可以决定是否购买和 或出售股票 你在任何时候最多只能持一股股票 你也可以先购买 然后在同一天出售 返回你能获得的最大利润 2 分析特
  • 蓝桥杯2022 python C组

    蓝桥杯2022 python C组 跟之前的就四题不一样 第二题 特殊时间 就是i 从0 9 j从0 9 i是三个一样的 然后看看他们能不能成为 年 月日 时分 成为年只要大于0就好了 称为月日的话月要从1 12 日呢 特殊的日子就二月28
  • Java连接Oracle数据库(详细!快速上手)

    Java连接Oracle数据库及封装JDBC 如果你点开看到了这篇文章 说明你已经或多或少地通过学校学习亦或是自学了解了 oracle 数据库的基本用法 但是实际在开发程序的时候 我们是不可能手动地去操作sql语句的 而是由程序去调用 这个
  • adb shell 出现 insufficient permissions for device

    新安装了一台电脑 要用adb跟开发板通信 1 安装adb user hp 8200 Desktop factory adb shell The program adb can be found in the following packag
  • 使用过的小巧软件一览

    最近遇到一个脑洞的问题 之前使用Winrar 压缩软件 加密的代码包 由于时间久远 密码忘记了 尝试了记得的各种可能的密码 都是不行 但大概记得长度和部分字符 可就是不记得如何组合的了 后来网上搜索了一番 找到一个小软件 暴力破解了一番 好
  • Linux安全基线检查--centos7

    版权声明 本文为CSDN博主 淡定波007 的原创文章 遵循CC 4 0 BY SA版权协议 转载请附上原文出处链接及本声明 原文链接 https blog csdn net qq 28721869 article details 1146
  • 使用storcli/storcli64工具配置RAID

    storcli storcli工具上传到服务器任意目录 并使用命令chmod x storcli64修改文件权限为可执行 系统下查看Raid卡 root localhost lspci grep LSI 0000 81 00 0 RAID
  • C++函数的定义与使用

    函数的定义和使用 main就是一个函数 它是C 程序的主函数 一个C 程序可以由一个主函数和若干子函数组成 主函数是程序执行的开始点 由主函数调用子函数 子函数还可以再调用其它子函数 调用其它函数的函数称为主调函数 被其他函数调用的函数称为
  • flexible.js实现移动端自适应

    首先要引入flaxible js 代码如下 function win lib var doc win document var docEl doc documentElement var metaEl doc querySelector m
  • linux下查看进程的位置

    在linux下使用top命令可以查看进程 但是单从文件名无法定位到进程的位置 有如下两种方法 1 获取进程的pid 然后使用命令ls l proc pid 这个命令可以列出该进程的启动位置 2 usr sbin lsof grep 进程名称
  • redis集群搭建(6节点单实例)

    1 分布式缓存的搭建 地址与服务器规划 Master1 192 168 232 128 slaver1 192 168 232 131 Master2 192 168 232 129 slaver2 192 168 232 132 Mast
  • Python中类的访问限制

    学习要点 在Python中 类的访问限制可以通过使用单下划线 和双下划线 进行控制 但这并不是严格的访问控制 而是一种命名约定 单下划线 约定性私有 一个下划线前缀表示一个属性或方法应该被视为 内部 使用 这只是一种约定 并没有严格的强制规
  • 数据库试题

    1 单选题 下列关于关系型数据库说法错误的是 A 使用键值对存储数据 B 关系型数据库 是指采用了关系模型来组织数据的数据库 C 关系型数据库的最大特点就是事务的一致性 D 关系型数据库的不足 大量数据的操作 字段的不固定 对表的索引以及表
  • 分支与循环语句_C语言入门

    目录 2 分支语句 什么是分支语句 2 1 if 语句 2 1 1 单分支 2 1 2 双分支 2 1 3 多分支 2 2 switch 选择结构 2 2 2 default 子句 3 循环语句 3 1for 循环 3 1 1 for循环的
  • Tomcat 详解(安装Tomcat、启动和配置,发布一个web网站)

    接下来开始 Tomcat DE 详细介绍 文章目录 一 安装Tomcat 二 Tomcat 启动和配置 2 1 目录文件 2 2 启动 Tomcat 测试 2 3 关闭 Tomcat 三 配置 四 发布一个 web 网站 五 常见面试题 一
  • Android系统之Bundle用法

    1 Bundle概述 Bundle在Android开发中非常常见 它的作用主要时用于传递数据 Bundle传递的数据包括 string int boolean byte float long double等基本类型或它们对应的数组 也可以是
  • springboot项目maven老是加载不了jar包如SpringBootApplication找不到

    困扰我好久了所以开贴记录一下 解决办法 我是清理了一些里面的杂乱的项目 就好了 具体的原因不太清楚 不过 应该事其他的项目造成的干扰 导致项目不能加载 以上方法不知道所以 下面方法可以尝试 在Maven命令后加入参数 Dmaven wago

随机推荐

  • 华为OD机试真题-静态代码扫描服务【2023Q1】【JAVA、Python、C++】

    题目描述 静态扫描快速快速识别源代码的缺陷 静态扫描的结果以扫描报告作为输出 1 文件扫描的成本和文件大小相关 如果文件大小为N 则扫描成本为N个金币 2 扫描报告的缓存成本和文件大小无关 每缓存一个报告需要M个金币 3 扫描报告缓存后 后
  • StringUtils详细介绍

    转自 https www oschina net code snippet 239959 8724 commentform public static void TestStr null 和 操作 判断是否Null 或者 System ou
  • 【Shell牛客刷题系列】SHELL16 判断输入的是否为IP地址:来练习正则表达式~

    该系列是基于牛客Shell题库 针对具体题目进行查漏补缺 学习相应的命令 刷题链接 牛客题霸 Shell篇 该系列文章都放到专栏下 专栏链接为 专栏 Linux 欢迎关注专栏 本文知识预告 本文首先结合之前正则表达式的相关知识 给出了IP地
  • 苹果ipcc下载

    http ax phobos apple com edgesuite net WebObjects MZStore woa wa com apple jingle appserver client MZITunesClientCheck v
  • 飞桨学习笔记之经典图像分类模型

    1 LeNet 2 AlexNet 3 VGG 4 GoogLeNet 5 ResNet 1 LeNet LeNet 通过连续使用卷积和池化层的组合提取图像特征 网络结构示意图 第一模块 包含5 5的6通道卷积和2 2的池化 卷积提取图像中
  • request_time和upstream_response_time详解

    下图是request time 下图是upstream response time 精准的描述就是 request time是从接收到客户端的第一个字节开始 到把所有的响应数据都发送完为止 upstream response time是从与
  • CTK系列之编译

    CTK编译 CTK编译笔记 资源下载 CTK 源码下载 master ctk github 链接 cmake环境准备 下载最新版本cmake的window安装包直接安装即可 camke下载链接 编译前准备 以本次安装为例 安装目录选择实在C
  • 考研复试数据库原理课后习题(十五)——数据仓库和联机分析处理技术

    数据仓库和联机分析处理技术 1 数据仓库的4个基本特征是什么 数据仓库的4个基本特征如下 数据仓库的数据是面向主题的 主题是一个抽象的概念 是在较高层次上将企业信息系统中的数据综合 归类并进行分析利用的抽象 面向主题的数据组织方式是根据分析
  • Python执行windows命令,报中文乱码解决方法

    笔者通过subprocess模块在windows机器上执行ping 服务器命令 结果报如下错误 Ping hostname 在这里可以用python的第三发插件chardet来探测一下原有字符是什么编码 如果没有安装 可以用命令 pip i
  • 闻达(wenda+chatGLM-6B)一键部署包

    本文是 基于闻达 wenda chatGLM 6B 构建自己的知识库小助手 的一键部署包 将处理数据 模型启动整理为 可执行脚本 并提供内置python虚拟环境 无需任何额外的环境配置 只需要上传自己的知识库文件即可使用 部署包链接 链接
  • 硬件系统工程师宝典(14)-----建议收藏!常用的多层板叠层结构“大揭秘”

    各位同学大家好 欢迎继续做客电子工程学习圈 今天我们继续来讲这本书 硬件系统工程师宝典 上篇我们说到PCB的布局可根据功能 频率 信号类型划分 布局时考虑敏感信号远离噪声源 今天我们来看看多层板的常用叠层结构 四层板的叠层结构 四层板的叠层
  • 用python对excel进行批量处理(1):将表格中的url用requests替换成图片

    前言 事情是这样的 npy说今天的工作里有一个900个项目的excel 表格的样子大概如下图所示 需求呢是将下图中的url全部替换成对应的图片添加到excel中 作为一个程序员 这样的任务要是手动做真是太难为人了 所以打算帮npy减轻一下负
  • (尚硅谷)JavaWeb新版教程08-QQZone项目的实现

    目录 1 熟悉 QQZone 业务需求 2 数据库设计 2 1 抽取实体 2 2 分析其中的属性 2 3 分析实体之间的关系 2 4 数据库的范式 3 根据数据库的表新建 pojo 类 ORM编程思想 3 1 UserBasic 类 3 2
  • CTFshow web入门 web3

    CTFshow web入门 web3 题目提示没思路的时候进行抓一下包 这道题还可以用burpsuite来抓 但是感觉有点大材小用 直接用Network做比较简单点
  • Pyqt5+python2.7 美观的登陆界面制作(二)

    简介 继上一篇的安装 这一篇主要讲下登陆界面的制作 之后也会把自己做毕业设计中在csdn上没有找到自己解决的一些界面上的问题解决方法共享出来 最近事情比较多 更新会有点慢 但还是希望能对大家有帮助啦 先上一张我毕业设计最后做出来的登陆界面效
  • 哈夫曼编码(最优前缀码)

    作为哈夫曼树的一个重要应用 我们来介绍哈夫曼编码 在我的上一篇博文 树之哈夫曼树 中已经介绍了建立哈夫曼树的过程 而由哈夫曼树求得的编码为最优前缀码 每个叶子表示的字符的编码 就是从根到叶子的路径上的标号依次相连所形成的编码 显然这就是该字
  • 人工智能数学基础---定积分4:使用换元法计算定积分

    一 引言 在 人工智能数学基础 不定积分2 利用换元法求不定积分 介绍了三种换元法求不定积分的方法及案例 在 人工智能数学基础 定积分3 微积分基本公式 牛顿 莱布尼茨公式 介绍了可以使用微积分基本公式 牛顿 莱布尼茨公式计算定积分 那么在
  • openGL之API学习(六十六)EmitVertex EndPrimitive

    EmitVertex表示输出一个顶点 而EndPrimitive表示结束一个图元的输出 这是一对命令 只有几何着色器才有的命令 几何着色器的图元通过两个特殊的内置函数生成的 即EmitVertex 和EndPrimitive 每个着色器请求
  • docker 安装ES和分词插件详细版教程

    一 安装ElasticSearch 1 下载镜像 docker pull docker elastic co elasticsearch elasticsearch 6 3 2 用docker images查看已下载的镜像 可选 对镜像命名
  • 机器学习算法的随机数据生成

    作者 刘建平Pinard 链接 https www cnblogs com pinard p 6047802 html 编辑 石头 在学习机器学习算法的过程中 我们经常需要数据来验证算法 调试参数 但是找到一组十分合适某种特定算法类型的数据