第33步机器学习分类实战：误判病例分析

2023-11-14

填最后一个坑，如何寻找误判的病例。

之前我们在介绍AUC的时候，提到了两个函数：predict和predict_proba，复习一下：

auc_test = roc_auc_score(y_test, y_testprba)

roc_auc_score的参数呢，包括两个：y_test是实际值，y_testprba是预测的概率（注意，是概率，而不是分类，要和y_pred做区别），来看看代码：

y_pred = classifier.predict(X_test)
y_testprba = classifier.predict_proba(X_test)[:,1]

来，一个是predict，一个是predict_proba，输出的如图所示。

一目了然了吧，就是根据0.5为阈值进行分类的。

所以呢，可以根据y_pred和y_true就可以判断是所谓的误诊（y_true是0，而y_pred是1）还是漏诊（y_true是1，而y_pred是0）。

具体操作在excel即可完成，最重的就是筛选出误诊和漏诊的病例：

我们还是用Xgboost做例子（测试集）：

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
dataset = pd.read_csv('X disease code fs.csv')
X = dataset.iloc[:, 1:14].values
Y = dataset.iloc[:, 0].values
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size = 0.30, random_state = 666)
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)
import xgboost as xgb
param_grid=[{
            'n_estimators':[35],
            'eta':[0.1],
            'max_depth':[1],
            'gamma':[0],
            'min_child_weight':[5],
            'max_delta_step':[1],
            'subsample':[0.8],
            'colsample_bytree':[0.8],
            'colsample_bylevel':[0.8],
            'reg_lambda':[9],
            'reg_alpha':[5],
            },
           ]
boost = xgb.XGBClassifier()
classifier = xgb.XGBClassifier()
from sklearn.model_selection import GridSearchCV
grid_search = GridSearchCV(boost, param_grid, n_jobs = -1, verbose = 2, cv=10)      
grid_search.fit(X_train, y_train)    
classifier = grid_search.best_estimator_  
classifier.fit(X_train, y_train)
y_pred = classifier.predict(X_test)
y_testprba = classifier.predict_proba(X_test)[:,1] 
y_trainpred = classifier.predict(X_train)
y_trainprba = classifier.predict_proba(X_train)[:,1]

由于我们演示的是测试集，所以关注y_pred和y_test:

接着，我们需要在运行一次代码：

X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size = 0.30, random_state = 666)

我们需要获得y_text对应的X_test，而上述那一串代码的X_test的数据已经被归一化了，没法使用，我们需要的是原始数据：

然后，我们把y_pred和y_test以及X_test复制到新的excel（注意：不要搞乱顺序，目前顺序是一一对应的）：

不放心的话，可以调出原始数据，稍微对应一下是否做到一一对应了，比如：

对应得上，不放心就再找几个做校对。

接着，新开一列，用真实值减去预测值，那么误诊（真实是0，而预测是1）就是-1，漏诊（真实是1，而预测是0）就是1。使用筛选功能，分别把它们提取出来，做你想做的分析，水几个图还是OK的。

终于，花了32期，把机器学习分类讲完了，洋洋洒洒4-5万字，有种写博士毕业论文的感觉了，希望对大家有用，也欢迎进行技术探讨。特别是Xgboost、LightGBM还有Catboost，以及各种Stacking模型，掌握的还是不够深入。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

第33步机器学习分类实战：误判病例分析的相关文章

没有名为 crypto.cipher 的模块

我现在正在尝试加密一段时间我最近得到了这个基于 python 的密码器名为PythonCrypter https github com jbertman PythonCrypter 我对 Python 相当陌生当我尝试通过终端打开 C
Django 代理模型的继承和多态性

我正在开发一个我没有启动的 Django 项目我面临着一个问题遗产我有一个大模型在示例中简化称为MyModel这应该代表不同种类的物品的所有实例对象MyModel应该具有相同的字段但方法的行为根据项目类型的不同而有很大差异到目
Python 的键盘中断不会中止 Rust 函数 (PyO3)

我有一个使用 PyO3 用 Rust 编写的 Python 库它涉及一些昂贵的计算单个函数调用最多需要 10 分钟从 Python 调用时如何中止执行 Ctrl C 好像只有执行结束后才会处理所以本质上没什么用最小可重现示例 Ca
SQLAlchemy 通过关联对象声明式多对多自连接

我有一个用户表和一个朋友表它将用户映射到其他用户因为每个用户可以有很多朋友这个关系显然是对称的如果用户A是用户B的朋友那么用户B也是用户A的朋友我只存储这个关系一次除了两个用户 ID 之外 Friends 表还有其他字段因此
将 Matplotlib 误差线放置在不位于条形中心的位置

我正在 Matplotlib 中生成带有错误栏的堆积条形图不幸的是某些层相对较小且数据多样因此多个层的错误条可能重叠从而使它们难以或无法读取 Example 有没有办法设置每个误差条的位置即沿 x 轴移动它以便重叠的线显示在彼此
Flask 会话变量

我正在用 Flask 编写一个小型网络应用程序当两个用户在同一网络下尝试使用应用程序时我遇到会话变量问题这是代码 import os from flask import Flask request render template
python 相当于 R 中的 get() （= 使用字符串检索符号的值）

在 R 中 get s 函数检索名称存储在字符变量向量中的符号的值s e g X lt 10 r lt XVI s lt substr r 1 1 X get s 10 取罗马数字的第一个符号r并将其转换为其等效整数尽管花了一些时间翻
如何加速Python中的N维区间树？

考虑以下问题给定一组n间隔和一组m浮点数对于每个浮点数确定包含该浮点数的区间子集这个问题已经通过构建一个解决区间树 https en wikipedia org wiki Interval tree 或称为范围树或线段树已经针对一
BeautifulSoup 中的嵌套标签 - Python

我在网站和 stackoverflow 上查看了许多示例但找不到解决我的问题的通用解决方案我正在处理一个非常混乱的网站我想抓取一些数据标记看起来像这样 table tbody tr tr tr td td td table tr t
添加不同形状的 numpy 数组

我想添加两个不同形状的 numpy 数组但不进行广播而是将缺失值视为零可能最简单的例子是 1 2 3 2 gt 3 2 3 or 1 2 3 2 1 gt 3 2 3 1 0 0 我事先不知道形状我正在弄乱每个 np shape
如何在ipywidget按钮中显示全文？

我正在创建一个ipywidget带有一些文本的按钮但按钮中未显示全文我使用的代码如下 import ipywidgets as widgets from IPython display import display button wid
Python 的“zip”内置函数的 Ruby 等价物是什么？

Ruby 是否有与 Python 内置函数等效的东西zip功能如果不是做同样事情的简洁方法是什么一些背景信息当我试图找到一种干净的方法来进行涉及两个数组的检查时出现了这个问题如果我有zip 我可以写这样的东西 zip a b a
python获取上传/下载速度

我想在我的计算机上监控上传和下载速度一个名为 conky 的程序已经在 conky conf 中执行了以下操作 Connection quality alignr wireless link qual perc wlan0 downspe
Jupyter Notebook 内核一直很忙

我已经安装了 anaconda 并且 python 在 Spyder IPython 等中工作正常但是我无法运行 python 笔记本内核被创建它也连接但它始终显示黑圈忙碌符号防火墙或防病毒软件没有问题我尝试过禁用两者我也无法
如何在seaborn displot中使用hist_kws

我想在同一图中用不同的颜色绘制直方图和 kde 线我想为直方图设置绿色为 kde 线设置蓝色我设法弄清楚使用 line kws 来更改 kde 线条颜色但 hist kws 不适用于显示我尝试过使用 histplot 但我无法为
类型错误：预期单个张量时的张量列表 - 将 const 与 tf.random_normal 一起使用时

我有以下 TensorFlow 代码 tf constant tf random normal time step batch size 1 1 我正进入状态TypeError List of Tensors when single Te
有人用过 Dabo 做过中型项目吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我们正处于一个新的 ERP 风格的客户端服务器应用程序的开始阶段该应用程序是作为 Python 富客户端开发的我们目前正在评估 Dabo
Conda SafetyError：文件大小不正确

使用创建 Conda 环境时conda create n env name python 3 6 我收到以下警告 Preparing transaction done Verifying transaction SafetyError Th
使用其构造函数初始化 OrderedDict 以便保留初始数据的顺序的正确方法？

初始化有序字典 OD 以使其保留初始数据的顺序的正确方法是什么 from collections import OrderedDict Obviously wrong because regular dict loses order d O
Scrapy：如何使用元在方法之间传递项目

我是 scrapy 和 python 的新手我试图将 parse quotes 中的项目 item author 传递给下一个解析方法 parse bio 我尝试了 request meta 和 response meta 方法如 sc

随机推荐

rabbitmq java 删除交换机与队列

rabbitmq java 删除交换机与队列删除指定队列直接删除 channel queueDelete queueName 删除指定交换机直接删除 channel exchangeDelete exchangeName 清空指定队列
工作日记——@RequestMapping 的String&&View适配 ————2016-1-14

问题描述工作上遇到要在一个RequestMapping 方法里适配返回值为string 或者json对象以下是解决方案部分涉及业务逻辑请忽略 1 RequestMapping方法 RequestMapping method Reque
前端Base64编码知识,一文打尽

原文 https juejin cn post 6989391487200919566 作者云的世界掘金专栏前端基础进阶大厂技术高级前端 Node进阶点击上方程序员成长指北关注公众号回复1 加入高级Node交流群前言本
使用Python抓取同花顺资金流数据

今天我们通过一个例子来介绍python爬取数据的一般步骤用到的工具包括python的经典模块requests和BeautifulSoup 另外结合刚学习的任务流工具TaskFlow来完成代码开发我们先来看一下要爬取的数据网址是http
IDEA导出可执行的jar，包含class以及资源文件一起打包

1 点击File gt Project Structure gt Artifacts 2 点选择Directory Content 选择资源文件所在文件夹即可 3 最后build Artifacts
linux彻底卸载nodejs,Linux 卸载删除node和npm并重新安装（升级）

卸载 1 先卸载npm sudo npm uninstall npm g 2 卸载node yum remove nodejs npm y 看看是否有残留进入 usr local lib 删除所有 node 和 node modules文
华为OD机试真题 Java 实现【代表团坐车】【2023 B卷 200分】，附详细解题思路

目录专栏导读一题目描述二输入描述三输出描述四解题思路五 Java算法源码六效果展示 1 输入 2 输出 3 说明华为OD机试 2023B卷题库疯狂收录中刷题点这里专栏导读本专栏收录于华为OD机试 JAVA
《STM32单片机开发应用教程(HAL库版)—基于国信长天嵌入式竞赛实训平台（CT117E-M4）》第四章4.8 TIM---PWM输出实验

写在前面 STM32单片机开发应用教程 HAL库版基于国信长天嵌入式竞赛实训平台 CT117E M4 第四章4 8 TIM PWM输出实验讲解TIM 定时与PWM输出的STM32CubeMX配置和程序设计方法官方例程下载 https
unity经营类游戏-植树造林-虚拟现实期末大作业

期末大作业 unity经营类游戏植树造林附下载链接点我下载资源有两个页面一个是菜单页面有开始游戏和结束游戏两个按钮点击开始游戏进去游戏开始可以种植草地下面出现的分数够了就可以养小鸟中蘑菇场地可以随鼠标移动下面有分数暂
动态canvas 相册简单效果展示

昨晚应一个客户需求花了些时间写了个简单的动态相册效果就他给举例的那个示例站点而言很明显我的做了很大的优化在ipad上也能够较为流畅的运行 ios 3 4 对canvas的支持度很低的老版本可想在这上面也能够跑的优化下面贴结果压缩
功能测试基础之业务流程测试

功能测试基础之业务流程测试文章目录功能测试基础之业务流程测试前言一面向结构分析定义实例分析二面向过程分析定义面向过程分析过程与步骤主事件流和备选事件流说明实例分析三面向角色分析定义测试注意事项怎样分析系统
数字化时代-11：从马斯洛需求层次看未来选择做什么样的产品

摘要本文主要根据马斯洛的需求层次模型从需求的角度看未来选择做什么样的产品未来选择做什么样的产品上文探究了产品的形态除了可见的有形的物质产品也可以是无形的精神产品还可以是人本身那么选择什么样的具体的产品才符合未来的方向呢
ulimit详解

ulimit详解 https www cnblogs com klb561 p 10575043 html
内网穿透：FRP(Forwarding Remote Proxy)反向代理

frp 是一个可用于内网穿透的高性能的反向代理应用支持 tcp udp 协议为 http 和 https 应用协议提供了额外的能力且尝试性支持了点对点穿透下载地址 https github com fatedier frp rele
gdb 调试程序时, "No such file or directory."

gdb 调试程序时出现 Breakpoint 1 main at test c 5 5 test c No such file or directory 原因原来在可执行程序中包含的调试信息源代码只是对源文件的一个链接过程期间我
2014-06-06:IOCTL_STORAGE_GET_DEVICE_NUMBER获取磁盘信息如磁盘号、磁盘类型、分区号

include
【设计模式】用Java手写21种常见设计模式

文章目录引言面向对象及封装继承多态 1 封装 2 继承 3 多态一创建型1 单例模式 1 饿汉模式常用 2 懒汉模式二创建型2 原型模式 1 克隆对象 2 克隆工厂三创建型3 工厂模式 1 实体类 2 工厂类四创建
计算机网络概述(修改篇)

1 计算机网络发展可以分为三阶段分别是第一个阶段分组交换技术标志性技术是ARPANET 第二个阶段 TCP IP协议标志性技术是互联网第三个阶段 web技术标志性技术是万维网 2 计算机的功能包含以下几个数据通信数据在网络
【C++】11新特性：std::thread、std::mutex和两种RAII方式的锁封装

一 std thread 在C 11之前开发多线程的程序一般都是使用pthread create来创建线程繁琐且不易读可以看一下它的函数原型 int pthread create pthread t restrict tidp co
第33步机器学习分类实战：误判病例分析

填最后一个坑如何寻找误判的病例之前我们在介绍AUC的时候提到了两个函数 predict和predict proba 复习一下 auc test roc auc score y test y testprba roc auc score

第33步 机器学习分类实战：误判病例分析

第33步 机器学习分类实战：误判病例分析 的相关文章

随机推荐

热门标签

第33步机器学习分类实战：误判病例分析

第33步机器学习分类实战：误判病例分析的相关文章