scikit-learn 中的 class_weight 参数如何工作？

2023-11-29

我很难理解如何class_weightscikit-learn 的逻辑回归中的参数运行。

情况

我想使用逻辑回归对非常不平衡的数据集进行二元分类。这些类别被标记为 0（阴性）和 1（阳性），观察到的数据比例约为 19:1，大多数样本具有阴性结果。

第一次尝试：手动准备训练数据

我将拥有的数据分成不相交的数据集进行训练和测试（大约 80/20）。然后我手工对训练数据进行随机采样，得到比19:1不同比例的训练数据；从 2:1 -> 16:1。

然后，我在这些不同的训练数据子集上训练逻辑回归，并绘制召回率 (= TP/(TP+FN)) 作为不同训练比例的函数。当然，召回率是根据观察到的比例为 19:1 的不相交 TEST 样本计算的。请注意，虽然我在不同的训练数据上训练了不同的模型，但我在相同（不相交）的测试数据上计算了所有模型的召回率。

结果正如预期的那样：在 2:1 的训练比例下，召回率约为 60%，当达到 16:1 时，召回率下降得相当快。有几个比例为 2:1 -> 6:1，召回率远高于 5%。

第二次尝试：网格搜索

接下来，我想测试不同的正则化参数，因此我使用 GridSearchCV 并制作了一个由多个值组成的网格C参数以及class_weight范围。将我的 n:m 比例的负:正训练样本翻译成字典语言class_weight我以为我只是指定几个字典如下：

{ 0:0.67, 1:0.33 } #expected 2:1
{ 0:0.75, 1:0.25 } #expected 3:1
{ 0:0.8, 1:0.2 }   #expected 4:1

我还包括None and auto.

这一次的结果完全出乎意料。对于每个值，我的所有回忆都很小（class_weight except auto。所以我只能假设我对如何设置的理解class_weight字典错了。有趣的是，class_weight对于所有值，网格搜索中“auto”的值约为 59%C，我猜它平衡为 1:1？

我的问题

你如何正确使用class_weight在训练数据中实现与实际提供的数据不同的平衡？具体来说，我传递给什么字典class_weight使用 n:m 比例的负：正训练样本？
如果你通过了各种class_weight字典到 GridSearchCV，在交叉验证期间，它会根据字典重新平衡训练折叠数据，但使用真实的给定样本比例来计算测试折叠上的评分函数吗？这一点至关重要，因为任何指标只有来自观察到的比例的数据才对我有用。
什么是auto的价值class_weight尽量按比例做？我阅读了文档，我认为“平衡数据与其频率成反比”只是意味着它使其达到 1:1。它是否正确？如果没有，有人可以澄清吗？

首先，仅仅依靠回忆可能并不好。通过将所有内容分类为正类，您可以简单地实现 100% 的召回率。我通常建议使用 AUC 来选择参数，然后找到您感兴趣的操作点（例如给定的精度水平）的阈值。

For how class_weight有效：它会惩罚样本中的错误class[i] with class_weight[i]而不是 1。所以较高的班级权重意味着您想要更加重视某个班级。从你的说法来看，0 类的出现频率似乎是 1 类的 19 倍。所以你应该增加class_weight类 1 相对于类 0，例如 {0:.1, 1:.9}。如果class_weight总和不等于 1，它基本上会改变正则化参数。

For how class_weight="auto"有效，你可以看看这次讨论。在开发版本中您可以使用class_weight="balanced"，这更容易理解：它基本上意味着复制较小的类，直到拥有与较大类中的样本一样多的样本，但以隐式方式进行。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

scikitlearn

scikit-learn 中的 class_weight 参数如何工作？的相关文章

没有名为 crypto.cipher 的模块

我现在正在尝试加密一段时间我最近得到了这个基于 python 的密码器名为PythonCrypter https github com jbertman PythonCrypter 我对 Python 相当陌生当我尝试通过终端打开 C
Django 管理员在模型编辑时间歇性返回 404

我们使用 Django Admin 来维护导出到我们的一些站点的一些数据有时当单击标准更改列表视图来获取模型编辑表单而不是路由到正确的页面时我们会得到 Django 404 页面模板它是偶尔发生的我们可以通过重新加载三次来重现它
SQLAlchemy 通过关联对象声明式多对多自连接

我有一个用户表和一个朋友表它将用户映射到其他用户因为每个用户可以有很多朋友这个关系显然是对称的如果用户A是用户B的朋友那么用户B也是用户A的朋友我只存储这个关系一次除了两个用户 ID 之外 Friends 表还有其他字段因此
使 django 服务器可以在 LAN 中访问

我已经安装了Django服务器可以如下访问 http localhost 8000 get sms http 127 0 0 1 8000 get sms 假设我的IP是x x x x 当我这样做时从同一网络下的另一台电脑 my ip
Flask 会话变量

我正在用 Flask 编写一个小型网络应用程序当两个用户在同一网络下尝试使用应用程序时我遇到会话变量问题这是代码 import os from flask import Flask request render template
从字符串中删除识别的日期

作为输入我有几个包含不同格式日期的字符串例如彼得在16 45 我的生日是1990年7月8日 On 7 月 11 日星期六我会回家 I use dateutil parser parse识别字符串中的日期在下一步中我想从字符串中删除
测试 python Counter 是否包含在另一个 Counter 中

如何测试是否是pythonCounter https docs python org 2 library collections html collections Counter is 包含在另一个中使用以下定义柜台a包含在计数器中b当且
基于代理的模拟：性能问题：Python vs NetLogo & Repast

我正在 Python 3 中复制一小段 Sugarscape 代理模拟模型我发现我的代码的性能比 NetLogo 慢约 3 倍这可能是我的代码的问题还是Python的固有限制显然这只是代码的一个片段但 Python 却花费了三分
Python 函数可以从作用域之外赋予新属性吗？

我不知道你可以这样做 def tom print tom s locals locals def dick z print z name z name z guest Harry print z guest z guest print di
如何在ipywidget按钮中显示全文？

我正在创建一个ipywidget带有一些文本的按钮但按钮中未显示全文我使用的代码如下 import ipywidgets as widgets from IPython display import display button wid
Flask如何获取请求的HTTP_ORIGIN

我想用我自己设置的 Access Control Allow Origin 标头做出响应而弄清楚请求中的 HTTP ORIGIN 参数在哪里似乎很混乱我在用着烧瓶 0 10 1 以及HTTP ORIGIN似乎是这个的特点之一object
无法在 Python 3 中导入 cProfile

我试图将 cProfile 模块导入 Python 3 3 0 但出现以下错误 Traceback most recent call last File
将图像分割成多个网格

我使用下面的代码将图像分割成网格的 20 个相等的部分 import cv2 im cv2 imread apple jpg im cv2 resize im 1000 500 imgwidth im shape 0 imgheight i
如何在seaborn displot中使用hist_kws

我想在同一图中用不同的颜色绘制直方图和 kde 线我想为直方图设置绿色为 kde 线设置蓝色我设法弄清楚使用 line kws 来更改 kde 线条颜色但 hist kws 不适用于显示我尝试过使用 histplot 但我无法为
每个 X 具有多个 Y 值的 Python 散点图

我正在尝试使用 Python 创建一个散点图其中包含两个 X 类别 cat1 cat2 每个类别都有多个 Y 值如果每个 X 值的 Y 值的数量相同我可以使用以下代码使其工作 import numpy as np import mat
如何在 Python 中追加到 JSON 文件？

我有一个 JSON 文件其中包含 67790 1 kwh 319 4 现在我创建一个字典a dict我需要将其附加到 JSON 文件中我尝试了这段代码 with open DATA FILENAME a as f json obj js
类型错误：预期单个张量时的张量列表 - 将 const 与 tf.random_normal 一起使用时

我有以下 TensorFlow 代码 tf constant tf random normal time step batch size 1 1 我正进入状态TypeError List of Tensors when single Te
Conda SafetyError：文件大小不正确

使用创建 Conda 环境时conda create n env name python 3 6 我收到以下警告 Preparing transaction done Verifying transaction SafetyError Th
如何计算 pandas 数据帧上的连续有序值

我试图从给定的数据帧中获取连续 0 值的最大计数其中包含来自 pandas 数据帧的 id date value 列如下所示 id date value 354 2019 03 01 0 354 2019 03 02 0 354 201
发送用户注册密码，django-allauth

我在 django 应用程序上使用 django alluth 进行身份验证注册我需要创建一个自定义注册表单其中只有一个字段电子邮件密码将在服务器上生成这是我创建的表格 from django import forms from

随机推荐

为什么在reduce中使用减法结果不一致？

鉴于以下情况 val rdd List 1 2 3 我假设rdd reduce x y gt x y 会回来 4 i e 1 2 3 4 但它返回了2 Why 来自 RDD 源代码以及docs Reduces the elements o
非异步执行路径能否在“异步”方法中返回同步结果

考虑以下方法 public async Task
为什么 $state.transitionTo 或 $state.go 不显示新的 HTML 部分？

下面是一段代码用于在每次 UI 路由器状态更改之前检查用户权限一切正常除了当权限正常时到新状态的转换使用 state go 如下所示或使用 state transitionTo 似乎根本没有做任何事情控制台消息已记录但仅此而
matplotlib 未正确显示 3D 平面的交集 [重复]

这个问题在这里已经有答案了我想绘制两个平面并找到它们的相交线但我得到这个结果无法判断它们相交的位置因为一个平面覆盖另一个平面 3D 投影应该隐藏平面的不可见部分我如何使用来获得这个结果绘图库你可以清楚地看到这些平原should相
如何在 GtkTreeView 中交替亮/暗行？

我已阅读并尝试了该问题的现有解决方案但无法让它们发挥作用我希望有人能指出我做错了什么或者告诉我为什么这些解决方案不再有效 https thegnomejournal wordpress com 2011 03 15 styling g
我可以根据之前的参数设置默认参数吗？

是否可以使用函数参数列表中先前的参数作为参数列表中后续参数的默认值例如 void f int a int b a int c b 如果可以的话有什么使用规则吗答案是否定的你不能您可以使用重载获得您想要的行为 void f int
Flexbox - justify-content: center 和align-items: center 不起作用？

我有一个非常基本的 Flex 设置并且无论出于何种原因有问题的 div 不会在其父标签内垂直居中您可以在下面看到单独的测试用例 likeness rank table border radius 3px margin bottom 2
如何在 Java Swing 中创建圆形标题边框

我确实了解要创建标题边框您需要执行以下操作 BorderFactory createTitledBorder Your Title 然而这会创建一个矩形边框而我需要一个带有弯角的矩形现在据我了解您可以通过以下方式创建自己的自定义
如何从 JSON 数组将数据加载到自定义列表视图

我已将数据从 JSON 数组加载到普通列表视图如下所示 JSONArray jArray new JSONArray result final String array spinner new String jArray length f
file_get_contents 在代理后面？

在工作中我们必须使用代理来访问 80 端口例如我们为每个用户都有自己的自定义登录名我的临时解决方法是使用curl 通过代理以我自己的身份登录并访问我需要的外部数据是否有某种高级 php 设置我可以设置以便在内部每当它尝试调用类似
RealityKit 中的粒子系统

RealityKit中有粒子系统吗如果是这样有人可以指出我正确的文档文章吗到目前为止我在 RealityKit 模块中没有找到任何粒子系统 RealityKit 中的粒子系统可用于visionOS 1 0 and tvOS 17
带有 VSTS 的 SonarCloud 出现错误 Duplicate ProjectGuid: "00000000-0000-0000-0000-000000000000"

我们将 SonarCloud 添加到大型解决方案的构建管道中我们的解决方案中仅分析了一个项目但我们看到了此警告警告以下项目没有有效的 ProjectGuid 并且不是使用有效的解决方案 sln 构建的因此将从分析中跳过 D a 1
如何在控制台应用程序中使文本居中？ [复制]

这个问题在这里已经有答案了我正在创建一个控制台应用程序我需要将文本居中有没有一种简单的方法可以做到这一点或者我是否必须在文本之前放置空格直到它居中感谢您的帮助例如使用作为控制台的中心你好世界 string s Hello
R - Rselenium - 使用 = 'id' 导航下拉菜单/列表/框

如何通过 using id 导航动态下拉列表例如 remDr findElement using id value main ddYear 我可以找到并单击使用findElement 单击后如果我知道我的目标选择有多少个向下箭头我可以
将sql字符串拆分为单词

我想将字符串拆分成如下所示的单词所有字符串的输出应该相同 INPUT 1 This is a string 2 This is a string 3 This is a string 4 This is a string OUTPUT 这
不使用 MFMessageComposeViewController 发送消息

我喜欢制作自己的 iMessages 消息应用程序该应用程序基本上已准备就绪但我不知道如何在不显示 MFMessageComposeViewController 的情况下发送 iMessage 我知道有办法他们在 ByteSMS 和所
缩小 C++0x 中的转换范围。是只有我这么认为，还是这听起来像是一个重大改变？

C 0x 将使以下代码和类似代码格式错误因为它需要所谓的缩小转换范围 of a double to a int int a 1 0 我想知道这种初始化在现实世界的代码中是否经常使用此更改会破坏多少代码如果您的代码受到影响需要付出很大
使用两个 Android 应用程序的内容提供程序示例

我想要insert or delete我当前的 Android 应用程序中另一个 Android 应用程序数据库中的值我搜索了很多大家都说用 content provider 它不与两个应用程序一起使用所有两个应用程序都在一个应用程序
android:largescreens: = "true" 的属性值语法无效

我正在开发一个 android 应用程序 minSdkVersion 为 11 targetSdkVersion 为 17 我正在为多种屏幕尺寸设计这个应用程序所以我将对所有屏幕的支持放在清单文件中我希望这个应用程序支持所有密度我的
scikit-learn 中的 class_weight 参数如何工作？

我很难理解如何class weightscikit learn 的逻辑回归中的参数运行情况我想使用逻辑回归对非常不平衡的数据集进行二元分类这些类别被标记为 0 阴性和 1 阳性观察到的数据比例约为 19 1 大多数样本具有阴性结果

scikit-learn 中的 class_weight 参数如何工作？

scikit-learn 中的 class_weight 参数如何工作？ 的相关文章

随机推荐

热门标签

scikit-learn 中的 class_weight 参数如何工作？的相关文章