sklearn.cross_validation 中使用 train_test_split 和 cross_val_score 的区别

2024-02-15

我有一个 20 列的矩阵。最后一列是 0/1 标签。

数据的链接是here https://www.dropbox.com/s/8v4lomociw1xz0d/data_so.csv?dl=0.

我正在尝试使用交叉验证在数据集上运行随机森林。我使用两种方法来做到这一点：

using sklearn.cross_validation.cross_val_score
using sklearn.cross_validation.train_test_split

当我做我认为几乎完全相同的事情时，我会得到不同的结果。为了举例说明，我使用上面的两种方法运行了两次交叉验证，如下面的代码所示。

import csv
import numpy as np
import pandas as pd
from sklearn import ensemble
from sklearn.metrics import roc_auc_score
from sklearn.cross_validation import train_test_split
from sklearn.cross_validation import cross_val_score

#read in the data
data = pd.read_csv('data_so.csv', header=None)
X = data.iloc[:,0:18]
y = data.iloc[:,19]

depth = 5
maxFeat = 3 

result = cross_val_score(ensemble.RandomForestClassifier(n_estimators=1000, max_depth=depth, max_features=maxFeat, oob_score=False), X, y, scoring='roc_auc', cv=2)

result
# result is now something like array([ 0.66773295,  0.58824739])

xtrain, xtest, ytrain, ytest = train_test_split(X, y, test_size=0.50)

RFModel = ensemble.RandomForestClassifier(n_estimators=1000, max_depth=depth, max_features=maxFeat, oob_score=False)
RFModel.fit(xtrain,ytrain)
prediction = RFModel.predict_proba(xtest)
auc = roc_auc_score(ytest, prediction[:,1:2])
print auc    #something like 0.83

RFModel.fit(xtest,ytest)
prediction = RFModel.predict_proba(xtrain)
auc = roc_auc_score(ytrain, prediction[:,1:2])
print auc    #also something like 0.83

我的问题是：

为什么我得到不同的结果，即为什么我使用时 AUC（我使用的指标）更高train_test_split?

笔记：当我使用更多折叠（例如 10 折叠）时，我的结果中似乎存在某种模式，第一次计算总是给出最高的 AUC。

在上例中的双重交叉验证的情况下，第一个 AUC 始终高于第二个；它总是类似于 0.70 和 0.58。

感谢您的帮助！

使用 cross_val_score 时，您经常需要使用 KFolds 或 StratifiedKFolds 迭代器：

http://scikit-learn.org/0.10/modules/cross_validation.html#computing-cross-validated-metrics http://scikit-learn.org/0.10/modules/cross_validation.html#computing-cross-validated-metrics

http://scikit-learn.org/0.10/modules/ generated/sklearn.cross_validation.KFold.html#sklearn.cross_validation.KFold http://scikit-learn.org/0.10/modules/generated/sklearn.cross_validation.KFold.html#sklearn.cross_validation.KFold

默认情况下，cross_val_score不会随机化您的数据，如果您的数据一开始就不是随机的，这可能会产生像这样的奇怪结果。

KFolds 迭代器有一个随机状态参数：

http://scikit-learn.org/stable/modules/ generated/sklearn.cross_validation.KFold.html http://scikit-learn.org/stable/modules/generated/sklearn.cross_validation.KFold.html

train_test_split 也是如此，它默认随机化：

http://scikit-learn.org/stable/modules/ generated/sklearn.cross_validation.train_test_split.html http://scikit-learn.org/stable/modules/generated/sklearn.cross_validation.train_test_split.html

像您所描述的模式通常是训练/测试集中缺乏随机性的结果。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

sklearn.cross_validation 中使用 train_test_split 和 cross_val_score 的区别的相关文章

如何在 Matplotlib 饼图周围绘制箭头以将每个标签指向圆圈中各自的部分？

我一直在用 Matplotlib 绘制一些图表我有一个饼图想要在图表周围绘制箭头使每个标签都指向图表我有一个例子这是我当前的代码 import matplotlib pyplot as plt plt rcParams font
嵌套列表的重叠会产生不必要的间隙

我有一个包含三个列表的嵌套这些列表由 for 循环填充并且填充由 if 条件控制第一次迭代后它可能类似于以下示例 a 1 2 0 0 0 0 0 0 4 5 0 0 0 0 0 0 6 7 根据条件它们不重叠在第二次迭代之后新
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
更好地相当于这个疯狂的嵌套 python for 循环

for a in map for b in map a for c in map b for d in map c for e in map d print a b c d e 上面的代码用于创建图中一定长度的所有路径 map a 表示从
MongoEngine 查询具有以列表中指定的前缀开头的属性的对象的列表

我需要在 Mongo 数据库中查询具有以列表中任何前缀开头的特定属性的元素现在我有一段这样的代码 query mymodel terms term in query terms 并且这会匹配在列表 term 上有一个项目的对象该列表中的
打印数字时添加千位分隔符[重复]

这个问题在这里已经有答案了我真的不知道这个问题的名称所以它可能是一个不正确的标题但问题很简单如果我有一个数字例如 number 23543 second 68471243 我想要它使print 像这样 23 54368 471
矩形函数的数值傅里叶变换

本文的目的是通过一个众所周知的分析傅里叶变换示例来正确理解 Python 或 Matlab 上的数值傅里叶变换为此我选择矩形函数这里报告了它的解析表达式及其傅立叶变换https en wikipedia org wiki Rectan
如何使用 Selenium 和 ChromeDriver 解决 TypeError: 'module' object is not callable 错误 [重复]

这个问题在这里已经有答案了代码试验 from selenium import webdriver from selenium webdriver chrome options import Options as Chromeoptions
Python 3：将字符串转换为变量[重复]

这个问题在这里已经有答案了我正在从 txt 文件读取文本并且需要使用我读取的数据之一作为类实例的变量 class Sports def init self players 0 location name self players pla
无法导入 langchain.agents.load_tools

我正在尝试使用 LangChain Agents 但无法导入 load tools 版本 langchain 0 0 27 我尝试过这些 from langchain agents import initialize agent from
python的shutil.move()在linux上是原子的吗？

我想知道python的shutil move在linux上是否是原子的如果源文件和目标文件位于两个不同的分区上行为是否不同或者与它们存在于同一分区上时的行为相同吗我更关心的是如果源文件和目标文件位于同一分区上 shutil move
为什么 csv.DictReader 给我一个无属性错误？

我的 CSV 文件是 200 Service 我放入解释器的代码是 snav csv DictReader open screennavigation csv delimiter print snav fieldnames 200 for
如何以正确的方式为独立的Python应用程序制作setup.py？

我读过几个类似的主题但还没有成功我觉得我错过或误解了一些基本的事情这就是我失败的原因我有一个用 python 编写的应用程序我想在标准 setup py 的帮助下进行部署由于功能复杂它由不同的 python 模块组成但单独
Firebase Firestore：获取文档的生成 ID (Python)

我可以创建一个新文档带有自动生成的 ID 并存储对其的引用如下所示 my data key value doc ref db collection u campaigns add my data 我可以像这样访问数据本身 print d
如何使用 Boto3 启动具有 IAM 角色的 EC2 实例？

我无法弄清楚如何使用指定的 IAM 角色在 Boto3 中启动 EC2 实例以下是迄今为止我如何成功创建实例的一些示例代码 import boto3 ec2 boto3 resource ec2 region name us west 2
将索引与值交换的最快方法

考虑pd Series s s pd Series list abcdefghij list ABCDEFGHIJ s A a B b C c D d E e F f G g H h I i J j dtype object 交换索引和值并
python 对浮点数进行不正确的舍入

gt gt gt a 0 3135 gt gt gt print 3f a 0 314 gt gt gt a 0 3125 gt gt gt print 3f a 0 312 gt gt gt 我期待 0 313 而不是 0 312 有没有
如何将Python3设置为Mac上的默认Python版本？

有没有办法将 Python 3 8 3 设置为 macOS Catalina 版本 10 15 2 上的默认 Python 版本我已经完成的步骤看看它安装在哪里 ls l usr local bin python 我得到的输出是这样的
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS
NLTK：查找单词大小为 2k 的上下文

我有一个语料库我有一个词对于语料库中该单词的每次出现我想获取一个包含该单词之前的 k 个单词和该单词之后的 k 个单词的列表我在算法上做得很好见下文但我想知道 NLTK 是否提供了一些我错过的功能来满足我的需求 def size

随机推荐

如何在 Django-Rest-Framework 序列化器中获取 Request.User？

我已经尝试过类似的方法但它不起作用 class PostSerializer serializers ModelSerializer class Meta model Post def save self user self contex
通过基于事件的通信做出反应

我正在尝试在 a 中使用 Reactvscode 网页视图面板 https code visualstudio com api extension guides webview 我认为自己是 React 中的一个不错的组件但我习惯于通过
如何识别应用程序在 Linux 上以深色主题运行？

我开发了一个使用 qscintilla 作为文本编辑器的应用程序我还实现了自定义词法分析器来突出显示特定于语言的关键字到目前为止突出显示关键字的样式已硬编码在我的应用程序中并且在 Windows Linux Ubuntu Mac 上
iOS 应用内购买：沙盒产品 ID 无效

在我解决这个问题之前先介绍一下稍微奇怪的设置的背景为客户开发一个应用程序我们使用的 iTunes 开发者帐户与最终发布的用于开发和临时构建应用程序的帐户不同具有游戏中心和 IAP 集成显然我们最终将不得不在最终发布帐户上复制我们
在OpenGL中从矩阵获取位置、旋转和缩放

目前我正在学习用于 Android 开发的 OpenGL ES 现在我正处于必须处理的时刻ModelMatrix和CameraMatrix但我对此有一些疑问在 OpenGL 中我们总是使用 4x4 矩阵我理解为什么要这样做但我不知道
所有测试均通过，但 TFS 将构建标记为部分成功

我们当前的项目涉及构建一个由 Net 应用程序控制的机器人盒子我们与相当多的硬件库进行交互并且我们确实设置了一个集成服务器所有硬件都连接到它来运行夜间回归测试不幸的是并非系统中的所有硬件库都能与 TFS 和 MSTest 很好地集
kcachegrind：如何绘制完整的调用图？

我喜欢 kcachegrind 的调用图但我无法让它绘制完整的调用图我想我只需要设置图表 gt 呼叫者深度 gt 无限图形 gt 被调用者深度 gt 无限制图表 gt 最小值节点成本 gt 无最低成本图表 gt 最小值通话费用
R 和 RStudio 不显示希腊字母和其他符号 - 显示方块

我似乎无法在 r 中显示希腊字母我正在使用 RStudio 无论我如何尝试我似乎都无法显示希腊字符最初我尝试在里面显示希腊字母bquote 使用我上的一堂课的语法教授发表并在课堂上证明它有效当它显示的只是正方形时我尝试了更基
如何使用 PHP 的 OpenSSL 扩展验证 CA？

在命令行中我可以通过输入来验证证书是否由受信任的 CA 颁发 openssl 验证 mycert pem 我如何使用 PHP 的 OpenSSL 库做同样的事情 PHP 有一个openssl verify https www php ne
在控制器操作中执行 SQL 查询

我有 5 个单独的 SQL 查询正在控制器操作中按顺序执行这是我用来执行它们的方法 var entity new TestEntities entity Database ExecuteSqlCommand SQL Query 所以基
为什么在 ASP.NET Web 应用程序上调用 WebMethod 时出现不明确的类型错误？

发送到浏览器的消息如下 My API Class 类型不明确它可能来自程序集在临时 ASP NET 文件上或来自程序集在 bin 文件夹上调试 Web 应用程序时特别是向 WebService 的 WebMethod 发出请求时
ActionView::Template::Error：ActionView::Template::Error：nil:NilClass 未定义方法“[]”

我有一个基本的静态网页 class StaticPagesController lt ApplicationController def home end end 还有一个只有标题的 home html erb 这在开发中工作得很好但在测
%time wait main() 抛出语法错误：jupyter 中的“await”外部函数

我尝试使用来计算时间 time在 Jupyter notebook 中一些 SyntaxError 只是让我感到困惑这是一个可以演示问题的简单代码 import asyncio async def main print 1 time a
使用 ASM 选择和修改 `if` 语句

我要更新if在特定行上的现有类中声明而不更改整个方法这是目标代码类方法的名称和一些代码已更改因为它们不相关 public class Target extends Something public Target super som
我应该将隐私政策副本放在应用程序本身内还是仅放在 Google Play 商店列表中？

我是否必须在应用程序本身中放置一份隐私政策副本或者我应该只将其 URL 放入 google play 中而无需在我的应用程序中提及它 Both越多越好如果您的应用程序请求敏感权限 Google Play 商店很可能会要求该隐私政策字段
使用 odo 将具有多个数据集的巨大 h5 文件合并为一个

我有许多大型 13GB 大小 h5 文件每个 h5 文件都有两个用 pandas 创建的数据集 df to hdf name of file to save key 1 table True df to hdf name of file
使用 socket.io 和 sails.js 发送会话特定消息

我正在尝试使用 sails js 框架实现私人聊天功能但在尝试向特定用户发送消息时遇到了一些麻烦目前我已经通过使用socket io的将消息发送到特定的socket id来实现私人通信 socket socket id emit ev
如何在没有 JQuery 的情况下从 Javascript 发出 JSONP 请求？

我可以在 JavaScript 中发出跨域 JSONP 请求而不使用 jQuery 或其他外部库吗我想使用 JavaScript 本身然后解析数据并使其成为一个对象以便我可以使用它我必须使用外部库吗如果没有我该怎么办 funct
NSNotificationCenter 给出的键盘大小

我想在从 UISearchBar 调用的键盘上添加accessoryView 由于 UISearchBar 没有实现此属性因此我刚刚创建了一个工具栏下列的苹果的文档 https developer apple com library a
sklearn.cross_validation 中使用 train_test_split 和 cross_val_score 的区别

我有一个 20 列的矩阵最后一列是 0 1 标签数据的链接是here https www dropbox com s 8v4lomociw1xz0d data so csv dl 0 我正在尝试使用交叉验证在数据集上运行随机森林我使用

sklearn.cross_validation 中使用 train_test_split 和 cross_val_score 的区别

sklearn.cross_validation 中使用 train_test_split 和 cross_val_score 的区别 的相关文章

随机推荐

热门标签

sklearn.cross_validation 中使用 train_test_split 和 cross_val_score 的区别的相关文章