scikit-learn - 具有置信区间的 ROC 曲线

2024-05-05

我可以使用 ROC 曲线scikit-learn with fpr, tpr, thresholds = metrics.roc_curve(y_true,y_pred, pos_label=1), where y_true是基于我的黄金标准的值列表（即0对于负数和1对于积极的情况）和y_pred是相应的分数列表（例如，0.053497243, 0.008521122, 0.022781548, 0.101885263, 0.012913795, 0.0, 0.042881547 [...])

我试图找出如何在该曲线上添加置信区间，但没有找到任何简单的方法来使用 sklearn 来做到这一点。

您可以引导 ROC 计算（使用替换新版本的示例）y_true / y_pred脱离原来的y_true / y_pred并重新计算一个新值roc_curve每次）并以这种方式估计置信区间。

要考虑训练测试分割引起的变异性，您还可以使用随机分割 http://scikit-learn.org/stable/modules/cross_validation.html#random-permutations-cross-validation-a-k-a-shuffle-splitCV迭代器多次，在训练分割上拟合模型，生成y_pred对于每个模型，从而收集经验分布roc_curves 以及最后计算这些的置信区间。

Edit: python 中的引导

以下是从单个模型的预测中引导 ROC AUC 分数的示例。我选择引导 ROC AUC，以便更容易地遵循 Stack Overflow 答案，但它可以调整为引导整个曲线：

import numpy as np
from scipy.stats import sem
from sklearn.metrics import roc_auc_score

y_pred = np.array([0.21, 0.32, 0.63, 0.35, 0.92, 0.79, 0.82, 0.99, 0.04])
y_true = np.array([0,    1,    0,    0,    1,    1,    0,    1,    0   ])

print("Original ROC area: {:0.3f}".format(roc_auc_score(y_true, y_pred)))

n_bootstraps = 1000
rng_seed = 42  # control reproducibility
bootstrapped_scores = []

rng = np.random.RandomState(rng_seed)
for i in range(n_bootstraps):
    # bootstrap by sampling with replacement on the prediction indices
    indices = rng.randint(0, len(y_pred), len(y_pred))
    if len(np.unique(y_true[indices])) < 2:
        # We need at least one positive and one negative sample for ROC AUC
        # to be defined: reject the sample
        continue

    score = roc_auc_score(y_true[indices], y_pred[indices])
    bootstrapped_scores.append(score)
    print("Bootstrap #{} ROC area: {:0.3f}".format(i + 1, score))

您可以看到我们需要拒绝一些无效的重采样。然而，对于具有许多预测的真实数据，这是一个非常罕见的事件，不应显着影响置信区间（您可以尝试改变rng_seed去检查）。

这是直方图：

import matplotlib.pyplot as plt
plt.hist(bootstrapped_scores, bins=50)
plt.title('Histogram of the bootstrapped ROC AUC scores')
plt.show()

请注意，重新采样的分数在 [0 - 1] 范围内进行审查，导致最后一个 bin 中的分数数量较多。

要获得置信区间，可以对样本进行排序：

sorted_scores = np.array(bootstrapped_scores)
sorted_scores.sort()

# Computing the lower and upper bound of the 90% confidence interval
# You can change the bounds percentiles to 0.025 and 0.975 to get
# a 95% confidence interval instead.
confidence_lower = sorted_scores[int(0.05 * len(sorted_scores))]
confidence_upper = sorted_scores[int(0.95 * len(sorted_scores))]
print("Confidence interval for the score: [{:0.3f} - {:0.3}]".format(
    confidence_lower, confidence_upper))

这使：

Confidence interval for the score: [0.444 - 1.0]

置信区间非常宽，但这可能是我选择预测的结果（9 个预测中有 3 个错误），而且预测总数非常小。

关于该图的另一个注释：分数是量化的（许多空的直方图箱）。这是预测数量较少的结果。人们可以在分数上引入一点高斯噪声（或y_pred值）来平滑分布并使直方图看起来更好。但平滑带宽的选择很棘手。

最后，如前所述，此置信区间特定于您的训练集。为了更好地估计模型类和参数引起的 ROC 变异性，您应该进行迭代交叉验证。然而，这通常成本更高，因为您需要为每个随机训练/测试分割训练一个新模型。

编辑：自从我第一次写这个回复以来，scipy 中直接有一个引导程序实现：

https://docs.scipy.org/doc/scipy/reference/ generated/scipy.stats.bootstrap.html https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.bootstrap.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scikit-learn - 具有置信区间的 ROC 曲线的相关文章

如何计算 pandas datetime 对象的均值和方差？

如何计算 YYYY MM DD 形式的 python 日期时间对象的汇总统计数据均值和标准差我想对具有不同 ID 的不同日期时间对象组执行此操作数据如下 import datetime as dt df pd DataFrame Da
如何传递架构以从现有数据帧创建新数据帧？

要将 schema 传递到 json 文件我们这样做 from pyspark sql types import StructField StringType StructType IntegerType data schema Stru
计算另一个字符串中多个字符串的出现次数

在 Python 2 7 中给定以下字符串 Spot是一只棕色的狗斑点有棕色的头发斑点的头发是棕色的查找字符串中 Spot brown 和 hair 总数的最佳方法是什么在示例中它将返回 8 我正在寻找类似的东西string c
如何在 Matplotlib 饼图周围绘制箭头以将每个标签指向圆圈中各自的部分？

我一直在用 Matplotlib 绘制一些图表我有一个饼图想要在图表周围绘制箭头使每个标签都指向图表我有一个例子这是我当前的代码 import matplotlib pyplot as plt plt rcParams font
Django Rest Framework 是否有第三方应用程序来自动生成 swagger.yaml 文件？

我有大量的 API 端点编写在django rest framework并且不断增加和更新如何创建和维护最新的 API 文档我当前的版本是 Create swagger yaml文件并以某种方式在每次端点更改时自动生成然后使用此文件作
从Django中具有外键关系的两个表中检索数据？ [复制]

这个问题在这里已经有答案了 This is my models py file from django db import models class Author models Model first name models CharFie
在 Django Admin 中调整字段大小

在管理上添加或编辑条目时 Django 倾向于填充水平空间但在某些情况下当编辑 8 个字符宽的日期字段或 6 或 8 个字符的 CharField 时这确实是一种空间浪费字符宽然后编辑框最多可容纳 15 或 20 个字符我如何告
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
为什么 web2py 在启动时崩溃？

我正在尝试让 web2py 在 Ubuntu 机器上运行所有文档似乎都表明要在 nix 系统上运行它您需要下载源代码并执行以下操作蟒蛇 web2py py 我抓住了source http www web2py com examples
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
Java 和 Python 可以在同一个应用程序中共存吗？

我需要一个 Java 实例直接从 Python 实例数据存储中获取数据我不知道这是否可能数据存储是否透明唯一或者每个实例如果它们确实可以共存都有其单独的数据存储总结一下 Java 应用程序如何从 Python 应用程序的数据存
python的shutil.move()在linux上是原子的吗？

我想知道python的shutil move在linux上是否是原子的如果源文件和目标文件位于两个不同的分区上行为是否不同或者与它们存在于同一分区上时的行为相同吗我更关心的是如果源文件和目标文件位于同一分区上 shutil move
通过Python连接到Bigquery：ProjectId和DatasetId必须非空

我编写了以下脚本来通过 SDK 将 Big Query 连接到 Python 如下所示 from google cloud import bigquery client bigquery Client project My First Pr
当字段是数字时怎么说...在 mongodb 中匹配？

所以我的结果中有一个名为城市的字段结果已损坏有时它是一个实际名称有时它是一个数字以下代码显示所有记录 db zips aggregate project city substr city 0 1 sort city 1 我需要修
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
pandas - 包含时间序列数据的堆积条形图

我正在尝试使用时间序列数据在 pandas 中创建堆积条形图 DATE TYPE VOL 0 2010 01 01 Heavy 932 612903 1 2010 01 01 Light 370 612903 2 2010 01 01 Me
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
python 中的“槽包装器”是什么？

object dict 和其他地方的隐藏方法设置为这样的
Firebase Firestore：获取文档的生成 ID (Python)

我可以创建一个新文档带有自动生成的 ID 并存储对其的引用如下所示 my data key value doc ref db collection u campaigns add my data 我可以像这样访问数据本身 print d

随机推荐

ImageMagick，Q8 与 Q16 的实际含义是什么？

在Windows下我需要在Q8和Q16之间进行选择我知道 Q8 是每像素 8 位分量例如 8 位红色 8 位绿色等而 Q16 是每像素 16 位分量我还知道 Q16 使用的内存是 Q8 的两倍因此我必须慎重选择什么是每像素
字符串编码器固定大小输出

我接到一个任务需要编写一个具有以下要求的编码器输入 1 到 8 位的整数即 12345678 2352 76543 输出固定大小的 6 位代码可以包含任何字母数字和符号 a z A Z 0 9 该操作必须是可逆的因此给定一个代码
简单的线框格式？

我正在寻找一种用于线框模型的简单文件格式我知道 VRML u3D 等但这些对于我的需求来说似乎很重要我的标准是必须有明确的规格要么是开放的要么是非常完善记录的我只需要想要简单的模型顶点和边我不想处理面孔或物体如果格
使用HTMLWebpackPlugin时如何通过webpack加载图片？

我正在使用 HTMLWebpackPlugin 在我的模板中我有一个 img 标签 img src images logo png 如果您注意到这里我使用相对路径认为 webpack 将触发在 webpack config js 文件中
使用 XSLT 向上移动节点

我已经做了很多搜索但我无法弄清楚如何准确地使用模板我的输入数据称为 DEBTORS xml
rake db:migrate 和 rake db:create 都适用于测试数据库，而不是开发数据库

我是 Stack Overflow 和 Ruby on Rails 的新手我的问题是当我运行命令 rake db create 或 rake db migrate 时测试数据库受到影响但开发数据库不受影响导轨 3 2 2 我的数据
将整数四舍五入到最接近的 10 倍数[重复]

这个问题在这里已经有答案了我想弄清楚如何对价格进行四舍五入双向例如 Round down 43 becomes 40 143 becomes 140 1433 becomes 1430 Round up 43 becomes 50 1
在 SQL 中搜索 xml 列中的多个值

这是我的桌子 BasketId int BasketName varchar BasketFruits xml 1 Gold
protobuf-net 是否有内置的序列化压缩？

我正在做一些比较BinaryFormatter和 protobuf net 序列化器我对我的结果非常满意found http theburningmonk com 2011 08 performance test binaryformat
okhttp3 上的流意外结束

我已经遵循了这个link https stackoverflow com questions 35238894 android retrofit 2 authenticator result刷新访问令牌将 Authenticator 添加
使用 PHP simpleXML 查找一个我知道名称但不知道其所在位置的节点

如果我知道要查找的节点的名称但我可能不一定知道该节点的路径我需要在 PHP 中查询 XML 字符串我想我可以使用 xpath 做到这一点但我无法弄清楚如何设置相对路径来查看文档中的任何位置有人可以指出我正确的方向吗我目前正在尝试
如何使用 file_put_contents() 写入变量值？

一整天都在试图解决这个问题假设这只是一个小错误我正在尝试使用file put content将变量值放入另一个 php 文件中下面的代码将解释将数据写入php的文件
有人可以提供 AngularJS 中范围的 $destroy 事件的示例吗？

有人可以提供作用域 destroy 事件的示例吗这是来自的参考文档http docs angularjs org api ng ro otScope Scope destroy http docs angularjs org api ng
Vagrant 提供，无法启动 grunt

我正在尝试让 vagrant 安装 nodejs 正常运行所需的所有内容然后在节点项目的根文件夹上执行 nohup grunt server 之后我期望服务器在端口 3030 上侦听但事实并非如此如果在配置后我这样做流浪者 ssh
如何将跨源资源共享与 Spring MVC 4.0.0 RESTful Webservice 集成

我有一个简单的 Web 服务返回JSON data The 用户等级 com bargadss SpringService Domain 是个POJO类包含用户 ID 名字姓氏电子邮件 The 用户服务类 com bargadss S
应用程序在 JSON jparser 发出 http 请求时崩溃

您好我使用本教程连接到网络或本地的 mySQL 数据库 here http www androidhive info 2012 05 how to connect android with php mysql 虽然所有服务器端 php 文
Doxygen：显示未记录方法的警告

我已经用 doxygen 激活了警告 WARNINGS YES WARN IF UNDOCUMENTED YES WARN IF DOC ERROR YES WARN NO PARAMDOC YES 但未记录的方法如下 void Anima
Selenium 2：中断页面加载

我在使用 FirefoxDriver 使用 Selenium 2 0b3 Java API 单击按钮时遇到问题单击该按钮会将表单发送到网络服务器然后浏览器会因表单提交而进入新页面当使用 element click 单击某个元素时 se
UIImagePickerController 和 iCloud 照片

切换到 iCloud Photo 后似乎 UIImagePickerController 返回的一些图像非常模糊看起来该图像是从 iCloud 照片中获取的我是否能够检索原始图像或过滤掉 iCloud 照片图像或者我是否必须切换到
scikit-learn - 具有置信区间的 ROC 曲线

我可以使用 ROC 曲线scikit learn with fpr tpr thresholds metrics roc curve y true y pred pos label 1 where y true是基于我的黄金标准的值列表即

scikit-learn - 具有置信区间的 ROC 曲线

scikit-learn - 具有置信区间的 ROC 曲线 的相关文章

随机推荐

热门标签

scikit-learn - 具有置信区间的 ROC 曲线的相关文章