为什么我不能得到与 GridSearchCV 相同的结果？

2024-04-10

GridSearchCV只返回每个参数化的分数，我还希望看到 Roc 曲线以更好地理解结果。为了做到这一点，我想采用性能最好的模型GridSearchCV并重现这些相同的结果，但缓存概率。这是我的代码

import numpy as np
import pandas as pd
from sklearn.datasets import make_classification
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import SelectFromModel
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import StratifiedKFold
from sklearn.pipeline import Pipeline
from tqdm import tqdm

import warnings
warnings.simplefilter("ignore")

data = make_classification(n_samples=100, n_features=20, n_classes=2, 
                           random_state=1, class_sep=0.1)
X, y = data


small_pipe = Pipeline([
    ('rfs', SelectFromModel(RandomForestClassifier(n_estimators=100))), 
    ('clf', LogisticRegression())
])

params = {
    'clf__class_weight': ['balanced'],
    'clf__penalty'     : ['l1', 'l2'],
    'clf__C'           : [0.1, 0.5, 1.0],
    'rfs__max_features': [3, 5, 10]
}
key_feats = ['mean_train_score', 'mean_test_score', 'param_clf__C', 
             'param_clf__penalty', 'param_rfs__max_features']

skf = StratifiedKFold(n_splits=5, random_state=0)

all_results = list()
for _ in tqdm(range(25)):
    gs = GridSearchCV(small_pipe, param_grid=params, scoring='roc_auc', cv=skf, n_jobs=-1);
    gs.fit(X, y);
    results = pd.DataFrame(gs.cv_results_)[key_feats]
    all_results.append(results)


param_group = ['param_clf__C', 'param_clf__penalty', 'param_rfs__max_features']
all_results_df = pd.concat(all_results)
all_results_df.groupby(param_group).agg(['mean', 'std']
                    ).sort_values(('mean_test_score', 'mean'), ascending=False).head(20)

这是我重现结果的尝试

small_pipe_w_params = Pipeline([
    ('rfs', SelectFromModel(RandomForestClassifier(n_estimators=100), max_features=3)), 
    ('clf', LogisticRegression(class_weight='balanced', penalty='l2', C=0.1))
])
skf = StratifiedKFold(n_splits=5, random_state=0)
all_scores = list()
for _ in range(25):
    scores = list()
    for train, test in skf.split(X, y):
        small_pipe_w_params.fit(X[train, :], y[train])
        probas = small_pipe_w_params.predict_proba(X[test, :])[:, 1]
        # cache probas here to build an Roc w/ conf interval later
        scores.append(roc_auc_score(y[test], probas))
    all_scores.extend(scores)

print('mean: {:<1.3f}, std: {:<1.3f}'.format(np.mean(all_scores), np.std(all_scores)))

我多次运行上述命令，因为结果似乎不稳定。我创建了一个具有挑战性的数据集，因为我自己的数据集同样难以学习。 groupby 旨在进行所有迭代GridSearchCV并对训练和测试分数进行平均和标准差以稳定结果。然后，我挑选出性能最佳的模型（在我最近的模型中，C=0.1、penalty=l2 和 max_features=3），并在故意放入这些参数时尝试重现这些相同的结果。

The GridSearchCV模型产生 0.63 平均值和 0.042 std roc 分数，而我自己的实现得到 0.59 平均值和 std 0.131 roc 分数。网格搜索得分要好得多。如果我对 GSCV 和我自己的实验进行 100 次迭代，结果是相似的。

为什么这些结果不一样？他们都在内部使用StratifiedKFold()当提供 cv 的整数时......也许GridSearchCV按折叠大小对分数进行加权？我不确定这一点，但这是有道理的。我的实施有缺陷吗？

edit: random_state添加到 SK 折叠

如果您设置了 random_state 的RandomForestClassifier，不同之间的差异girdsearchCV将被淘汰。

为了简单起见，我设置了 n_estimators =10 并得到以下结果

                                                             mean_train_score           mean_test_score
param_clf__C    param_clf__penalty  param_ rfs_max_features       mean        std     mean          std         
        1.0      l2                   5 0.766701    0.000000    0.580727    0.0  10 0.768849    0.000000    0.577737    0.0

现在，如果查看每个拆分的性能（通过删除key_feats过滤）最佳超参数，使用

all_results_df.sort_values(('mean_test_score'), ascending=False).head(1).T

我们将得到

    16
mean_fit_time   0.228381
mean_score_time 0.113187
mean_test_score 0.580727
mean_train_score    0.766701
param_clf__C    1
param_clf__class_weight balanced
param_clf__penalty  l2
param_rfs__max_features 5
params  {'clf__class_weight': 'balanced', 'clf__penalt...
rank_test_score 1
split0_test_score   0.427273
split0_train_score  0.807051
split1_test_score   0.47
split1_train_score  0.791745
split2_test_score   0.54
split2_train_score  0.789243
split3_test_score   0.78
split3_train_score  0.769856
split4_test_score   0.7
split4_train_score  0.67561
std_fit_time    0.00586908
std_score_time  0.00152781
std_test_score  0.13555
std_train_score 0.0470554

让我们重现这个！

skf = StratifiedKFold(n_splits=5, random_state=0)
all_scores = list()

scores = []
weights = []


for train, test in skf.split(X, y):
    small_pipe_w_params = Pipeline([
                ('rfs', SelectFromModel(RandomForestClassifier(n_estimators=10, 
                                                               random_state=0),max_features=5)), 
                ('clf', LogisticRegression(class_weight='balanced', penalty='l2', C=1.0,random_state=0))
            ])
    small_pipe_w_params.fit(X[train, :], y[train])
    probas = small_pipe_w_params.predict_proba(X[test, :])
    # cache probas here to build an Roc w/ conf interval later
    scores.append(roc_auc_score(y[test], probas[:,1]))
    weights.append(len(test))

print(scores)
print('mean: {:<1.6f}, std: {:<1.3f}'.format(np.average(scores, axis=0, weights=weights), np.std(scores)))

[0.42727272727272736, 0.47, 0.54, 0.78, 0.7]
平均值：0.580727，标准差：0.135

Note: mean_test_score不仅仅是简单的平均数，它是加权平均数。原因是iid param

From 文档 https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html#sklearn.model_selection.GridSearchCV:

iid :布尔值，默认='警告' 如果为真，则返回平均分折叠，根据每个测试集中的样本数量进行加权。在这个情况下，假设数据均匀分布在折叠，最小化的损失是每个样本的总损失，而不是跨折痕的平均损失。如果为 False，则返回平均分穿过褶皱。默认为True，但在版本中会更改为False 0.21，对应交叉验证的标准定义。

版本0.20更改：参数iid将从True更改为False 在0.22版本中默认存在，在0.24版本中将被删除。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么我不能得到与 GridSearchCV 相同的结果？的相关文章

如何计算 pandas datetime 对象的均值和方差？

如何计算 YYYY MM DD 形式的 python 日期时间对象的汇总统计数据均值和标准差我想对具有不同 ID 的不同日期时间对象组执行此操作数据如下 import datetime as dt df pd DataFrame Da
matplotlib 图中点的标签

所以这是一个关于已发布的解决方案的问题我试图在我拥有的 matplotlib 散点图中的点上放置一些数据标签我试图在这里模仿解决方案是否有与 MATLAB 的 datacursormode 等效的 matplotlib https s
我应该使用 Python 双端队列还是列表作为堆栈？ [复制]

这个问题在这里已经有答案了我想要一个可以用作堆栈的 Python 对象使用双端队列还是列表更好元素数量较少还是数量较多有什么区别您的情况可能会根据您的应用程序和具体用例而有所不同但在一般情况下列表非常适合堆栈 append is
如何处理分类中的低频样本？

我面临一个文本分类问题我需要将示例分类为 34 组问题是 34组的训练数据大小不平衡对于某些组我有 2000 多个示例而对于某些组我只有 100 多个示例对于一些小群体分类准确率相当高我想这些群体可能有特定的关键词来识别和
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
矩形函数的数值傅里叶变换

本文的目的是通过一个众所周知的分析傅里叶变换示例来正确理解 Python 或 Matlab 上的数值傅里叶变换为此我选择矩形函数这里报告了它的解析表达式及其傅立叶变换https en wikipedia org wiki Rectan
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
为什么一旦我离开内置的运行服务器，Django 就无法找到我的管理媒体文件？

当我使用内置的简单服务器时一切正常管理界面很漂亮 python manage py runserver 但是当我尝试使用 wsgi 服务器为我的应用程序提供服务时django core handlers wsgi WSGIHandle
Python 3：将字符串转换为变量[重复]

这个问题在这里已经有答案了我正在从 txt 文件读取文本并且需要使用我读取的数据之一作为类实例的变量 class Sports def init self players 0 location name self players pla
python的shutil.move()在linux上是原子的吗？

我想知道python的shutil move在linux上是否是原子的如果源文件和目标文件位于两个不同的分区上行为是否不同或者与它们存在于同一分区上时的行为相同吗我更关心的是如果源文件和目标文件位于同一分区上 shutil move
通过Python连接到Bigquery：ProjectId和DatasetId必须非空

我编写了以下脚本来通过 SDK 将 Big Query 连接到 Python 如下所示 from google cloud import bigquery client bigquery Client project My First Pr
尽管我已在 python ctypes 中设置了信号处理程序，但并未调用它

我尝试过使用 sigaction 和 ctypes 设置信号处理程序我知道它可以与python中的信号模块一起使用但我想尝试学习当我向该进程发送 SIGTERM 时但它没有调用我设置的处理程序只打印终止为什么它不调用处理程序
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
pandas - 包含时间序列数据的堆积条形图

我正在尝试使用时间序列数据在 pandas 中创建堆积条形图 DATE TYPE VOL 0 2010 01 01 Heavy 932 612903 1 2010 01 01 Light 370 612903 2 2010 01 01 Me
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
Python：Goslate 翻译请求返回“503：服务不可用”[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们不允许提出寻求书籍工具软件库等推荐的问题您可以编辑问题以便用事实和引文来回答这个问题似乎不是关于主要由程序员使用的特定编程问
如何使用 Boto3 启动具有 IAM 角色的 EC2 实例？

我无法弄清楚如何使用指定的 IAM 角色在 Boto3 中启动 EC2 实例以下是迄今为止我如何成功创建实例的一些示例代码 import boto3 ec2 boto3 resource ec2 region name us west 2
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是

随机推荐

ManualResetEvent 处于等待状态时会消耗 cpu 吗？

更具体地说上下文切换的性能下降是否适用于处于等待状态的线程在什么条件或情况下 ManualResetEvent 或 WaitHandle 可能会消耗资源 ManualResetEvent 没有等待状态唯一可以等待 MRE 的是thre
在 scikit-learn Pipeline 中插入或删除步骤

是否可以删除或插入步骤sklearn pipeline Pipeline object 我正在尝试在 Pipeline 对象中有或没有一步进行网格搜索想知道我是否可以在管道中插入或删除一个步骤我看到在Pipeline源代码有一个sel
从 eclipse 的内部浏览器打开网站？

谁能帮助我从 Eclipse 的内部嵌入式浏览器中打开网页我正在与浏览器并行运行 Linux 平铺窗口管理器和 Eclipse 3 7 2 这很痛苦我希望它能够轻松地从我的代码中读取需求同时读取代码这可能是超级用户的问题但它
mocha done() 和 async wait 的矛盾问题

我有以下测试用例 it should pass the test async function done await asyncFunction true should eq true done 运行它断言错误解决方法指定过多指定回调
是否可以在 Monotouch 中使用 NSZombieEnabled？

我一直在阅读有关环境变量的信息NSZombieEnabled http www cocoadev com index pl NSZombieEnabled我想知道目前是否可以在 Monotouch 运行时中使用它如果没有是否有合适的替代
以编程方式设置打印机功能

我正在开发一个 C 桌面应用程序我需要更改一些打印机设置并打印一些图片在我的程序中我已经可以设置纸张尺寸打印机名称等如果我进入打印机首选项的高级选项有一个名为打印机功能的部分我不知道如何访问打印机设置中的参数例如有边
sudoers 是世界可写错误[关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我更改了 Ubuntu 12 10 上的 ect 文件权限以便我可以编辑 bash bashrc 以便 Neo4j 可以看到 JVM 但现在当我尝试
ORACLE MINUS 关键字的 ANSI SQL 标准

我有一个查询我想要与 ANSI SQL 标准兼容在这个使用 oracle 查询 MINUS key work 我想要 ANSI SQL 这是放置于 MINUS 关键字 SELECT F selected UPPER a busine
Angular-UI 路由器：嵌套视图不起作用

构建多步骤表单向导原来是在关注本教程 https scotch io tutorials angularjs multi step form using ui router 效果很好但我现在正在尝试对其进行调整以便将第一步嵌入到主页
Perl 正则表达式在相同情况下替换

如果您在 perl 中有一个简单的正则表达式替换如下所示 line s JAM AAA g 我将如何修改它以便它查看匹配并使替换与匹配的大小写相同例如 JAM 将变成 AAA jam 会变成 aaa 基于 Unicode 的解决方案
Git 子模块初始化异步

当我跑步时git submodule update init第一次在有很多子模块的项目上这通常需要很多时间因为大多数子模块都存储在缓慢的公共服务器上是否可以异步初始化子模块从 Git 2 8 开始你可以这样做 git submod
PHP/C++：将值注入 EXE 文件 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想动态地将一个值注入到 EXE 文件中我过去接触过的一家公司给了我一个 EXE 存根我可以在用户下载它之前使用 PHP 动态注入
Qt 构建可以开箱即用静态链接？

我使用 Qt 构建了一个小型应用程序事实证明我需要从头开始重新配置 Qt 以便能够静态链接我以前做过我记得那是一个非常漫长的过程那么有人知道提供开箱即用静态链接功能的 Qt SDK 安装程序吗此外马丁贝克特的回答 https
比较 data.table 的两行并仅显示有差异的列[重复]

这个问题在这里已经有答案了我得到了一个大的 data table 其中包含不同类型的列例如数字或字符例如 data table name c A A val1 c 1 2 val2 c 3 3 cat c u v name val1
在 Apache POI 3.9 中，使用 autosizeColumn 同一列上的图像会被拉伸

我在 Excel 工作表中有一张图像和图像下方的一些文本当我将 autoSizeColumn 应用于文本呈现的列时图像也会被拉伸我还将锚类型设置为 2 但这并不能保护图像调整大小我在这里发布一些示例代码 public static
Spark：JavaRDD 到 JavaPairRDD<>

我有一个JavaRDD
透明精灵表有黑色背景

我正在使用 Python 和 Pygame 开发游戏我为其中一个敌人创建了一个精灵表并使其代码正常工作问题是图像看起来有黑色背景即使它是透明图像它的代码是这样的 enemySheet pygame image load resou
使用 selenium Java (Mac OSX) 将 Firefox 浏览器置于前端

我正在使用三个火狐驱动程序实例进行自动化我需要将当前活动的火狐浏览器置于前面因为我正在使用一些机器人类进行某些操作我曾在 mac 中尝试过针对 google chrome 的 java 脚本警报相同的操作并且工作正常在 Wind
在Android 4.2 API 17上读取Sqlite Cursor carsh

我有一张桌子145行当我尝试获取所有数据时crashed on android 4 2 BUT它工作得很好android 4 4 emulator public ArrayList
为什么我不能得到与 GridSearchCV 相同的结果？

GridSearchCV只返回每个参数化的分数我还希望看到 Roc 曲线以更好地理解结果为了做到这一点我想采用性能最好的模型GridSearchCV并重现这些相同的结果但缓存概率这是我的代码 import numpy as np

为什么我不能得到与 GridSearchCV 相同的结果？

为什么我不能得到与 GridSearchCV 相同的结果？ 的相关文章

随机推荐

热门标签

为什么我不能得到与 GridSearchCV 相同的结果？的相关文章