XGBOOST：sample_Weights 与scale_pos_weight

2024-01-01

我有一个高度不平衡的数据集，想知道在哪里考虑权重，因此我试图理解之间的区别scale_pos_weight论证中XGBClassifier和sample_weight的参数fit方法。如果可以同时使用这两种方法或者如何选择其中一种方法，我们将不胜感激对两者之间差异的直观解释。

文档表明scale_pos_weight:

控制正负权重的平衡..&典型值考虑：总和（负例）/总和（正例）

Example:

from xgboost import XGBClassifier
import xgboost as xgb
LR=0.1
NumTrees=1000
xgbmodel=XGBClassifier(booster='gbtree',seed=0,nthread=-1,
                       gamma=0,scale_pos_weight=14,learning_rate=LR,n_estimators=NumTrees,
                      max_depth=5,objective='binary:logistic',subsample=1)
xgbmodel.fit(X_train, y_train)

OR

from xgboost import XGBClassifier
import xgboost as xgb
LR=0.1
NumTrees=1000
xgbmodel=XGBClassifier(booster='gbtree',seed=0,nthread=-1,
                       gamma=0,learning_rate=LR,n_estimators=NumTrees,
                      max_depth=5,objective='binary:logistic',subsample=1)
xgbmodel.fit(X_train, y_train,sample_weight=weights_train)

The sample_weight参数允许您为每个训练示例指定不同的权重。这scale_pos_weight参数可让您为整个示例类别（“正”类别）提供权重。

它们对应于成本敏感型学习的两种不同方法。如果您认为错误分类正面示例（错过癌症患者）的成本对于所有正面示例都是相同的（但不仅仅是错误分类负面示例，例如告诉某人他们实际上没有患有癌症），那么您可以指定一个所有正例的权重通过scale_pos_weight.

XGBoost 将 labels = 1 视为“正”类。从下面的代码中可以看出这一点：

if (info.labels[i] == 1.0f) w *= param_.scale_pos_weight

See 这个问题 https://stats.stackexchange.com/questions/243207/what-is-the-proper-usage-of-scale-pos-weight-in-xgboost-for-imbalanced-datasets.

另一种情况是您有依赖于示例的成本。一个例子是检测欺诈交易。不仅漏报（漏掉欺诈性交易）比误报（阻止合法交易）成本更高，而且漏报漏报的成本与被盗资金的金额成正比。因此，您希望为金额较高的正面（欺诈）示例赋予更大的权重。在这种情况下，您可以使用sample_weight参数来指定特定于示例的权重。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

XGBOOST：sample_Weights 与scale_pos_weight 的相关文章

PyList_SetItem 与 PyList_SETITEM

据我所知 PyList SetItem 和 PyList SETITEM 之间的区别在于 PyList SetItem 会降低它覆盖的列表项的引用计数而 PyList SETITEM 不会我有什么理由不应该一直使用 PyList Set
Python Nose 导入错误

我似乎无法理解鼻子测试框架 https nose readthedocs org en latest 识别文件结构中测试脚本下方的模块我已经设置了演示该问题的最简单的示例下面我会解释一下这是包文件结构 init py foo py t
DataFrame 在函数内部修改

我面临一个我以前从未观察到的函数内数据帧修改的问题有没有一种方法可以处理这个问题以便初始数据帧不被修改 def test df df tt np nan return df dff pd DataFrame data 现在当我打印时d
Scikit-learn 的内核 PCA：如何在 KPCA 中实现各向异性高斯内核或任何其他自定义内核？

我目前正在使用Scikit learn 的 KPCA https scikit learn org stable modules generated sklearn decomposition KernelPCA html对我的数据集执行降
如何从谷歌云存储桶读取音频文件并在datalab笔记本中使用ipd播放

我想在数据实验室笔记本中播放我从谷歌云存储桶中读取的声音文件这个怎么做 import numpy as np import IPython display as ipd import librosa import soundfile as
使用 Scipy imsave 将 Numpy 数组保存到图像时保留未更改的数据

使用 Scipy 保存二维 Numpy 数组单个值时toimage or imsave像素值与 Numpy 数组中的像素值不完全匹配相反在某些区域主要是边缘图像算法似乎使用某种插值是否有一个选项可以停止插值并保留准确的数据例
如何使用循环将十进制转换为二进制？

我想编写一个程序将十进制数 0 到 9 转换为二进制数我可以编写如何使用重复除法将十进制数转换为二进制数的代码但是我在创建一个以二进制格式打印十进制数字 0 到 9 的循环时遇到了麻烦这是我的代码 number 0 remaind
为 Networkx 图添加标题？

我希望我的代码创建一个带有标题的图使用下面的代码可以创建绘图但没有标题有人可以告诉我我做错了什么吗 import pandas as pd import networkx as nx from networkx algorithms
错误：无法访问文件“$libdir/plpython2”：没有这样的文件或目录

我正在运行 postgresql 9 4 PostgreSQL 9 4 4 on x86 64 unknown linux gnu compiled by gcc GCC 4 1 2 20070626 Red Hat 4 1 2 14 64
如何使用 Python 多处理避免在分叉进程中加载父模块

当您创建一个Pool使用Python的进程multiprocessing 这些进程将分叉父进程中的全局变量将显示在子进程中如下面的问题所述如何限制多处理进程的范围 https stackoverflow com questions 2
杂乱的扭曲连接在不干净的时尚中消失了。没有代理。已经尝试过标题

我正在尝试抓取这个网站 https www5 apply2jobs com jupitermed ProfExt index cfm fuseaction mExternal searchJobs https www5 apply2jobs
Django - 电子邮件发送两次

每当我使用如下所示的电子邮件设置从views py调用下面的方法时电子邮件的两份副本都会发送给收件人并且我收到如下所示的错误 def sendEmailBasic request msg EmailMessage Request Cal
RuntimeError: 预期所有张量都在同一设备上，但发现至少有两个设备，cpu 和 cuda:0！使用我的模型进行预测时

我使用变压器训练了一个序列分类模型 BertForSequenceClassification 我收到错误预计所有张量都在同一设备上但发现至少有两个设备 cpu 和 cuda 0 在方法wrapper index select中检查参
Python 视频框架

我正在寻找一个 Python 框架它将使我能够播放视频并在该视频上绘图用于标记目的我尝试过 Pyglet 但这似乎效果不是特别好在现有视频上绘图时会出现闪烁即使使用双缓冲和所有这些好东西而且似乎没有办法在每帧回调期间获取视频中
Python正则表达式从字符串中获取浮点数

我正在使用正则表达式来解析字符串中的浮点数 re findall a zA Z d d t 是我使用的代码这段代码有问题如果数字和任何字符之间没有空格则不会解析该数字例如 0 1 2 3 4 5 6 7 8 9 的预期输出为 0 1
如何检查列表是否为空？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动例如如果通过以下内容 a 我如何检查是否a是空的 if not a print Lis
smooth_idf 是多余的吗？

The scikit learn 文档 http scikit learn org stable modules generated sklearn feature extraction text TfidfTransformer html
使用Beam IO ReadFromPubSub模块时，可以在Python中提取带有属性的消息吗？尚不清楚是否支持

尝试将具有存储在 PubSub 中的属性的消息拉取到 Beam 管道中我想知道是否添加了对 Python 的支持这就是我无法阅读它们的原因我看到它存在于Java中 pipeline options PipelineOptions pi
Spyder 如何在同一线程的后台运行 asyncio 事件循环（或者确实如此？）

我已经研究 asyncio 模块功能几天了因为我想将它用于我的应用程序的 IO 绑定部分并且我认为我现在对它的工作原理有一个合理的理解或者在至少我认为我已经理解了以下内容任一时刻任一线程中只能运行一个异步事件循环一旦一切都设置
为什么用字符串和时间增量转置 DataFrame 会转换数据类型？

这种行为对我来说似乎很奇怪 id列字符串在转置后转换为时间戳df如果另一列是时间增量 import pandas as pd df pd DataFrame id 00115 01222 32333 val 12 14 170 df v

随机推荐

一次将多个商品添加到 WooCommerce 购物车

我有 3 个不同商品的 ID 我想将它们添加到购物车中我可以用https url com shop cart add to cart 3001但是当我想添加 3 个项目时我却做不到我可以添加任何功能脚本来将此功能添加到我的购物网站吗
python中物理量的命名

我想为我的模拟代码中使用的物理数学量建立一个良好的命名方案考虑以下示例 from math import class GaussianBeamIntensity object Optical intensity profile of a
哪里可以获得适用于 Windows 的预编译 GTK3？ [复制]

这个问题在这里已经有答案了有没有地方可以下载 Windows 版预编译的 GTK3 GTK 站点仅提供 2 22 版本的二进制文件 GTK for Windows 是由志愿者生成的因此发布日期不同步并且取决于开发人员的可用性一旦完成
寻找一种使用 Shapely 快速查找点所属多边形的方法

我有一组约 36 000 个多边形代表该国家地区的一个分区约县我的 python 脚本接收很多点 pointId 经度纬度对于每个点我想发回 pointId polygonId 对于每个点循环到所有多边形并使用 myPoin
CSS 可以根据语言选择不同的默认字体和大小吗

我有以下 CSS 片段 INPUT font family Raavi font size 14px 当文本框包含一些旁遮普文字时效果很好如下所示但用户可能会输入英文而我宁愿使用不同大小的 Verdana 字体因为 Raavi 字
android：使用单个媒体播放器对象播放音频文件并显示图像

我需要依次显示图像并播放相应的音频文件我尝试创建多个媒体播放器对象但它显示error 1 17 所以请帮助大家我的时间不多了现在我有一个处理程序它播放音频文件然后在播放另一个音频文件时获取该音频文件的持续时间这是我的方法但我
D3.js 中的树形图 x 和 y 属性从何而来？

这是 JavaScript 代码 d3 json city json function error root var nodes cluster nodes root var links cluster links nodes consol
UITableView 单元格上的 Peek 和 Pop 因 UISearchController 而失败

Peek and Pop 正在与UISearchController 但是一旦您开始使用以下命令搜索表 Peek 和 Pop 就会停止工作updateSearchResults I ve extended Apple s Table Se
从“local hackage”安装软件包（通过 cabal）

是否有可能让阴谋集团下载特定的包源包括所有依赖包源在稍后阶段当不再依赖互联网连接时通过 cabal 从本地下载的文件中自动按正确的顺序安装这些软件包以便构建所需的软件包我知道你可以使用cabal unpack查看特定包的源代码
IBM Worklight 6.1 开发者版下载链接

我正在尝试从市场或谷歌下载 IBM Worklight 6 1 但我看不到任何相同的结果任何人都可以分享 IBM WL 6 1 的链接以及如何将修复包升级到 6 1 0 1 我也在寻找开发者版本由于 6 2 已发布我只能看到 6 2
Altair 结合多个数据集

我最近才知道Vega Vega Lite and Altair并将其视为最佳 Python 绘图工具的真正竞争者我目前正在努力解决的问题是将两个数据帧中的信息绘制到共享一个或两个轴的同一个图表中我尝试过类似的事情 plot1 alt C
如何使用正则表达式匹配不在两个特殊字符之间的内容？

我有一个像这样的字符串 a b c a b a b b a a 我如何匹配每一个a不是由以下分隔的字符串的一部分我想匹配这里粗体的所有内容 a bc a乙乙乙a a 我想替换这些匹配项或者通过用空字符串替换它们来删除它们因此删除匹
如何在 Spring-Web 中使用 RestTemplate 解析 gzip 编码响应

我修改后使用 RESTful Web 服务 https spring io guides gs consuming rest 调用示例通过id获取用户 https api stackexchange com docs users by id
如何使用 cv2.createButton 在 OpenCV 3.1 中制作按钮？

我正在尝试向图像处理脚本添加一个按钮以保存二进制阈值的高 HSV 值和低 HSV 值根据OpenCV 3 0文档here http docs opencv org 3 0 beta modules highgui doc qt new
如何将 jquery.Validate 与 jquery.multiselect 下拉菜单一起使用？

所以情况是这样的尝试使用添加下拉框jquery multiselect http www erichynds com jquery jquery ui multiselect widget 当前使用的表单上的插件jquery 验证 htt
按需发布时的最佳（您认为）GIT 工作流程（在大多数情况下一次 1-2 个票证）

我是一个 Git 新手我正在寻求你的建议在我工作的公司中我们有一个工作流程其中我们的项目有一个 Git 存储库有 2 个分支 master and prod 所有开发人员都致力于master分支如果票证完成从开发人员的角度来
Python Tkinter 输入小部件不接受输入

我在 Tkinter 条目小部件方面遇到了一个非常奇怪的问题当我尝试向其中输入内容时他们不接受我的输入在重新启动电脑并重新安装 Python 之后我弄清楚了为什么会发生这种情况在root mainloop 在代码中代码看起来像这
拆分 SAS 数据集

我有一个 SAS 数据集如下所示 id dept 1 A 2 A 3 A 4 A 5 A 6 A 7 A 8 A 9 B 10 B 11 B 12 B 13 B 每个观察代表一个人我想将数据集分成团队数据集每个数据集最多可以有 3
为什么我不能从 long 中导出？

我的函数返回一些长值其中包含低 32 位和高 32 位中的两个值我认为处理返回值的最佳方法是从 long 派生我的自定义类型并提供类型扩展器例如 GetLowerValue GetHigherValue 问题是 NET 不允许从
XGBOOST：sample_Weights 与scale_pos_weight

我有一个高度不平衡的数据集想知道在哪里考虑权重因此我试图理解之间的区别scale pos weight论证中XGBClassifier和sample weight的参数fit方法如果可以同时使用这两种方法或者如何选择其中一种方法我们

XGBOOST：sample_Weights 与scale_pos_weight

OR

XGBOOST：sample_Weights 与scale_pos_weight 的相关文章

随机推荐

热门标签