sklearn 中每个班级的具体测试数量/训练规模

2023-12-03

Data:

import pandas as pd
data = pd.DataFrame({'classes':[1,1,1,2,2,2,2],'b':[3,4,5,6,7,8,9], 'c':[10,11,12,13,14,15,16]})

My code:

import numpy as np
from sklearn.cross_validation import train_test_split
X = np.array(data[['b','c']])  
y = np.array(data['classes'])     
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=4)

问题：

train_test_split将从所有类别中随机选择测试集。有什么办法可以拥有the same测试集的数量每堂课？（例如，第1类的两个数据和第2类的两个数据。注意每个类的总数不相等）

预期结果：

y_test
array([1, 2, 2, 1], dtype=int64)

实际上没有 sklearn 函数或参数可以直接执行此操作。这stratify样品按比例地，这不是您在评论中指出的想要的。

您可以构建一个自定义函数，该函数相对较慢，但绝对速度并不算太慢。请注意，这是为 pandas 对象构建的。

def train_test_eq_split(X, y, n_per_class, random_state=None):
    if random_state:
        np.random.seed(random_state)
    sampled = X.groupby(y, sort=False).apply(
        lambda frame: frame.sample(n_per_class))
    mask = sampled.index.get_level_values(1)

    X_train = X.drop(mask)
    X_test = X.loc[mask]
    y_train = y.drop(mask)
    y_test = y.loc[mask]

    return X_train, X_test, y_train, y_test

案例示例：

data = pd.DataFrame({'classes': np.repeat([1, 2, 3], [10, 20, 30]),
                     'b': np.random.randn(60),
                     'c': np.random.randn(60)})
y = data.pop('classes')

X_train, X_test, y_train, y_test = train_test_eq_split(
    data, y, n_per_class=5, random_state=123)

y_test.value_counts()
# 3    5
# 2    5
# 1    5
# Name: classes, dtype: int64

怎么运行的：

执行 groupbyX和样品n每个组的值。
获取该对象的内部索引。这是我们测试集的索引，它与原始数据的集合差就是我们的训练索引。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

machinelearning

split

scikitlearn

Classification

sklearn 中每个班级的具体测试数量/训练规模的相关文章

类的 IPython 表示

我正在使用我创建的模块尝试 IPython 但它没有显示类对象的实际表示相反它显示类似的内容 TheClass module TheClass name I heavily在这个模块中使用元类我有真正有意义的类表示应该向用户显示是
Django Rest Framework 是否有第三方应用程序来自动生成 swagger.yaml 文件？

我有大量的 API 端点编写在django rest framework并且不断增加和更新如何创建和维护最新的 API 文档我当前的版本是 Create swagger yaml文件并以某种方式在每次端点更改时自动生成然后使用此文件作
使用主题交换运行多个 Celery 任务

我正在用 Celery 替换一些自制代码但很难复制当前的行为我期望的行为如下创建新用户时应向tasks与交换user created路由键该消息应该触发两个 Celery 任务即send user activate email
在 Django Admin 中调整字段大小

在管理上添加或编辑条目时 Django 倾向于填充水平空间但在某些情况下当编辑 8 个字符宽的日期字段或 6 或 8 个字符的 CharField 时这确实是一种空间浪费字符宽然后编辑框最多可容纳 15 或 20 个字符我如何告
为什么 web2py 在启动时崩溃？

我正在尝试让 web2py 在 Ubuntu 机器上运行所有文档似乎都表明要在 nix 系统上运行它您需要下载源代码并执行以下操作蟒蛇 web2py py 我抓住了source http www web2py com examples
更好地相当于这个疯狂的嵌套 python for 循环

for a in map for b in map a for c in map b for d in map c for e in map d print a b c d e 上面的代码用于创建图中一定长度的所有路径 map a 表示从
MongoEngine 查询具有以列表中指定的前缀开头的属性的对象的列表

我需要在 Mongo 数据库中查询具有以列表中任何前缀开头的特定属性的元素现在我有一段这样的代码 query mymodel terms term in query terms 并且这会匹配在列表 term 上有一个项目的对象该列表中的
无法导入 langchain.agents.load_tools

我正在尝试使用 LangChain Agents 但无法导入 load tools 版本 langchain 0 0 27 我尝试过这些 from langchain agents import initialize agent from
尽管我已在 python ctypes 中设置了信号处理程序，但并未调用它

我尝试过使用 sigaction 和 ctypes 设置信号处理程序我知道它可以与python中的信号模块一起使用但我想尝试学习当我向该进程发送 SIGTERM 时但它没有调用我设置的处理程序只打印终止为什么它不调用处理程序
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
Protobuf 如何编码 oneof 消息结构

对于这个 python 程序在编码时运行 protobuf 编码会给出以下输出 0a 10 08 7f8a 0104 08 02 10 0392 0104 08 02 10 03 18 01 我不明白的是为什么8a后面有一个01 为什么9
Spider 必须返回 Request、BaseItem、dict 或 None，已“设置”

我正在尝试从以下位置下载所有产品的图像我的蜘蛛看起来像 from shopclues items import ImgData import scrapy class multipleImages scrapy Spider name m
如何以正确的方式为独立的Python应用程序制作setup.py？

我读过几个类似的主题但还没有成功我觉得我错过或误解了一些基本的事情这就是我失败的原因我有一个用 python 编写的应用程序我想在标准 setup py 的帮助下进行部署由于功能复杂它由不同的 python 模块组成但单独
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
制作一份 Python 文档的 PDF 文件

Python 官方网站提供 PDF 文档下载但它们是按章节分隔的我下载了源代码并构建了 PDF 文档这些文档也是单独的 PDF 我怎么能够从源代码中的 Makefile 构建一个 PDF 文件我认为这样阅读起来会更方便如果连接单独
如何将 Django 中的权限添加到模型并使用 shell 进行测试

我在模型中添加了 Meta 类并同步了数据库然后在 shell 中创建了一个对象它返回 false 所以我真的无法理解错误在哪里或者缺少什么是否在其他文件中可能存在某种配置 class Employer User Employer in
pandas.read_csv 将列名移动一倍

我正在使用位于的 ALL zip 文件here http www fec gov disclosurep PDownload do 我的目标是用它创建一个 pandas DataFrame 但是如果我跑 data pd read csv
如何将Python3设置为Mac上的默认Python版本？

有没有办法将 Python 3 8 3 设置为 macOS Catalina 版本 10 15 2 上的默认 Python 版本我已经完成的步骤看看它安装在哪里 ls l usr local bin python 我得到的输出是这样的
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS

随机推荐

如何使用inst/extdata中的文件？ R 包检查阻止在 R 3.6 中使用 system.file()

我正在编写 R 包并尝试使用外部文件我把它放在inst extdata并使用system file extdata file csv package mypackage 在我的函数中加载文件官方手册只描述了这种获取数据的方式inst e
Spring应用程序似乎没有持久化数据

我正在尝试将一些内容写入我的数据库但尽管它报告成功完成请求但它不起作用成功后一切似乎都工作正常我的控制器正确地重定向了我 Debug DEBUG a d p payment PaymentServiceImpl Requesti
如何让 slickgrid div 根据表格大小调整大小

我希望我们有一些熟悉 slickGrid 的用户也能看到 StackOverflow 如何使用它我有一个包含 slickGrid 的 HTML 如下所示 div style width 600px margin 25px 0 0 0 di
领域数据同步不一致

我遇到一个问题每次执行相同的查询时 Realm 有时会返回不同的数据目前我正在使用 SyncAdapter 进行上传我们的想法是尝试实现离线模式因此当用户创建一个项目时它会被添加到领域数据库中我通过获取 maxId 并向其添加
实时 Admob 广告突然停止在我的应用中显示

6 月份 Admob 广告效果非常好 AdMob 向我发送了一封包含验证 PIN 码的信件以验证我的身份和付款详细信息七月初左右几乎所有实时广告都停止在我的应用程序中显示我仍然发出相同数量的请求但展示次数太低我已降至每天 0 0
将 Pandas DataFrame 转换为 JSON

我将数据存储在 pandas dataframe 中我想将 tat 转换为 JSON 格式可以使用以下代码复制示例数据 data Product A B A Zone E A A N E A start 08 00 00 09 00 0
使用 Carthage 构建时如何选择 Swift 工具链

我正在创建一个 iOS 应用程序并使用 Carthage 来构建外部库由于我目前使用的库都是 Swift 2 和 Swift 3 所以我有点紧张因此我希望拥有一个 Swift 2 分支和一个 Swift 3 分支进行开发然后在库全部
UIPopoverController 太大而 UIPickerView 太小

我有一个UIPickerView显示在a内UIPopoverController 尺寸UIPickerView are 320x216 由于某种原因 UIPickerView似乎是适当高度的 3 5 并且UIPopoverControlle
如何在 R 中对特定范围内的函数求和？

这里有三列 indx vehID LocalY 1 2 35 381 2 2 39 381 3 2 43 381 4 2 47 38 5 2 51 381 6 2 55 381 7 2 59 381 8 2 63 379 9 2 67 38
使用 ...spread，但 redux 仍然会抛出有关状态突变的警告

Redux 在调度时抛出警告 Error A state mutation was detected inside a dispatch in the path roundHistory 2 tickets Take a look at t
仅当外部文件存在时才安装

我想指示 Inno Setup 仅在某个外部文件存在时才安装该文件 Like so Source d sources SomeDLL dll DestDir app Flags external regserver uninsneverun
此操作无法完成。再试一次 (-22421)

我正在尝试上传Apple TV应用程序到应用程序商店进行测试但我遇到了问题此操作无法完成再试一次 22421 如下图所示那我能做什么呢发生这种情况是因为 Apple 的服务器可能无法正常工作请稍候或下次尝试它最终肯定会起作用
Flutter：Firebase Realtime 从对象列表中删除对象

我正在咨询数据库中注册的所有俱乐部对于每个俱乐部我都会将其添加到对象列表中当该人删除俱乐部时会从数据库中删除俱乐部但在项目列表中未删除我尝试执行以下操作我的 NotClub Player dart 类 FIREBASE CLU
如何在 NetBeans 7.0 中关闭左括号上的方法自动完成功能？

我想我打字很快因为如果我输入字符 ArrayList myArray myArray size NetBeans 自动完成将以下内容放入我的编辑器中 ArrayList myArray myArray add someVar 为什么因为
Ruby on Rails 中的多态性和形式

最近我充满了疑问但感谢这个很棒的社区我学到了很多东西我之前得到了有关多态关联所需的所有帮助现在我有一个关于使用多态模型处理表单的问题例如我有 Phoneable 和 User 因此当我创建表单来注册用户时我希望能够为用户分配一
“new Image()”和“new Option()”等构造函数的记录在哪里？

不是在 Mozilla 而是 for image 谢谢Rickard用于识别 http www w3 org html wg drafts html CR embedded content 0 html dom image它提供了 DOM
如何使用全局 CreateTheme 在 Material UI 5 的 TextField 中设置“禁用”类的样式？

我想对 TextFiled 组件进行不同的样式设置一旦禁用 true 就会概述变体在 Material ui v 4 中捕获它的方式在 Material ui v 5 中不起作用我也无法通过谷歌搜索如何自定义禁用版本的解决方案下面您
无法在 Google 应用引擎中使用 TfidfVectorizer

我正在 Google App Engine 中编写一个 python 程序该程序使用 sklearn 中的 TfidfVectorizer 计算 tf idf 我添加了 sklearn 库并导入为 from sklearn feature
Pig默认JsonLoader架构问题

我有以下需要使用 Pig 解析的数据 Data Name BBQ Chicken Sizes Size Large Price 14 99 Size Medium Price 12 99 Toppings Barbecue Sauce Ch
sklearn 中每个班级的具体测试数量/训练规模

Data import pandas as pd data pd DataFrame classes 1 1 1 2 2 2 2 b 3 4 5 6 7 8 9 c 10 11 12 13 14 15 16 My code import n

sklearn 中每个班级的具体测试数量/训练规模

sklearn 中每个班级的具体测试数量/训练规模 的相关文章

随机推荐

热门标签

sklearn 中每个班级的具体测试数量/训练规模的相关文章