使用 LightGBM 进行多类分类

2024-05-20

我正在尝试使用 Python 中的 LightGBM 为多类分类问题（3 类）建模分类器。我使用了以下参数。

params = {'task': 'train',
    'boosting_type': 'gbdt',
    'objective': 'multiclass',
    'num_class':3,
    'metric': 'multi_logloss',
    'learning_rate': 0.002296,
    'max_depth': 7,
    'num_leaves': 17,
    'feature_fraction': 0.4,
    'bagging_fraction': 0.6,
    'bagging_freq': 17}

数据集的所有分类特征均使用标签编码LabelEncoder。我在运行后训练了模型cv with eartly_stopping如下所示。

lgb_cv = lgbm.cv(params, d_train, num_boost_round=10000, nfold=3, shuffle=True, stratified=True, verbose_eval=20, early_stopping_rounds=100)

nround = lgb_cv['multi_logloss-mean'].index(np.min(lgb_cv['multi_logloss-mean']))
print(nround)

model = lgbm.train(params, d_train, num_boost_round=nround)

训练后，我用这样的模型进行了预测，

preds = model.predict(test)
print(preds)

我得到了一个嵌套数组作为输出，如下所示。

[[  7.93856847e-06   9.99989550e-01   2.51164967e-06]
 [  7.26332978e-01   1.65316511e-05   2.73650491e-01]
 [  7.28564308e-01   8.36756769e-06   2.71427325e-01]
 ..., 
 [  7.26892634e-01   1.26915179e-05   2.73094674e-01]
 [  5.93217601e-01   2.07172044e-04   4.06575227e-01]
 [  5.91722491e-05   9.99883828e-01   5.69994435e-05]]

正如每个列表中preds代表我使用的类别概率np.argmax()找到这样的课程..

predictions = []

for x in preds:
    predictions.append(np.argmax(x))

在分析预测时，我发现我的预测仅包含 2 个类 - 0 和 1。第 2 类是训练集中的第二大类，但在预测中找不到它。在评估结果时，它给出了大约78%准确性。

那么，为什么我的模型在任何情况下都没有预测 2 类？我使用的参数有问题吗？

这不是解释模型做出的预测的正确方法吗？我应该对参数进行任何更改吗？

尝试通过交换类 0 和 2 并重新运行训练和预测过程来排除故障。

如果新的预测仅包含类别 1 和类别 2（很可能考虑到您提供的数据）：

分类器可能没有学过第三类；也许它的特征与较大类的特征重叠，并且分类器默认为较大类，以便最小化目标函数。尝试提供平衡的训练集（每个类的样本数量相同）并重试。

如果新的预测确实包含所有 3 个类别：

您的代码某处出了问题。需要更多信息来确定到底出了什么问题。

希望这可以帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

machinelearning

Predict

multiclassclassification

lightGBM

使用 LightGBM 进行多类分类的相关文章

使用 MongoDB 作为我们的主数据库，我应该使用单独的图数据库来实现实体之间的关系吗？

我们目前正在为一家专业公司内部实施类似 CRM 的解决方案由于存储信息的性质以及信息的不同值和键我们决定使用文档存储数据库因为它完全适合目的在本例中我们选择 MongoDB 作为此 CRM 解决方案的一部分我们希望存储实体之间的关
Pandas set_levels，如何避免标签排序？

我使用时遇到问题set levels多索引 from io import StringIO txt Name Height Age Metres A 1 25 B 95 1 df pd read csv StringIO txt heade
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
从Django中具有外键关系的两个表中检索数据？ [复制]

这个问题在这里已经有答案了 This is my models py file from django db import models class Author models Model first name models CharFie
python multiprocessing 设置生成进程等待

是否可以生成一些进程并将生成进程设置为等待生成的进程完成下面是我用过的一个例子 import multiprocessing import time import sys def daemon p multiprocessing curr
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
打印包含字符串和其他 2 个变量的变量

var a 8 var b 3 var c hello my name is var a and var b bye print var c 当我运行程序时 var c 会像这样打印出来 hello my name is 8 and 3 b
从 Powershell 脚本安装 Python

当以管理员身份从 PowerShell 命令行运行以下命令时可以在 Windows 11 上成功安装 Python c temp python 3 11 4 amd64 exe quiet InstallAllUsers 0 Instal
使用 python/numpy 重塑数组

我想重塑以下数组 gt gt gt test array 11 12 13 14 21 22 23 24 31 32 33 34 41 42 43 44 为了得到 gt gt gt test2 array 11 12 21 22 13 14
导入错误：没有名为flask.ext.login的模块

我的flask login 模块有问题我已经成功安装了flask login模块另外从命令提示符我可以轻松运行此脚本不会出现错误 Python 2 7 r27 82525 Jul 4 2010 07 43 08 MSC v 1500
通过Python连接到Bigquery：ProjectId和DatasetId必须非空

我编写了以下脚本来通过 SDK 将 Big Query 连接到 Python 如下所示 from google cloud import bigquery client bigquery Client project My First Pr
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
尽管我已在 python ctypes 中设置了信号处理程序，但并未调用它

我尝试过使用 sigaction 和 ctypes 设置信号处理程序我知道它可以与python中的信号模块一起使用但我想尝试学习当我向该进程发送 SIGTERM 时但它没有调用我设置的处理程序只打印终止为什么它不调用处理程序
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
Python - 如何确定解析的 XML 元素的层次结构级别？

我正在尝试使用 Python 解析 XML 文件中具有特定标记的元素并生成输出 excel 文档该文档将包含元素并保留其层次结构我的问题是我无法弄清楚每个元素解析器在其上迭代的嵌套深度 XML 示例摘录 3 个元素它们可以任意嵌套
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
python 中的“槽包装器”是什么？

object dict 和其他地方的隐藏方法设置为这样的
制作一份 Python 文档的 PDF 文件

Python 官方网站提供 PDF 文档下载但它们是按章节分隔的我下载了源代码并构建了 PDF 文档这些文档也是单独的 PDF 我怎么能够从源代码中的 Makefile 构建一个 PDF 文件我认为这样阅读起来会更方便如果连接单独
根据 Pandas 中的列表选择数据框行的子集

我有一个数据框df1并列出x In 22 import pandas as pd In 23 df1 pd DataFrame C range 5 B range 10 20 2 A list abcde In 24 df1 Out 24

随机推荐

Laravel S3 检索视频以流式传输

我通过 Laravel 应用程序将视频存储到 Amazon S3 效果很好但我无法流式传输它们这是例如 URL https website com video 342 qt api token a5a18c9f f5f6 5d66
协助 awk/bash 捕获内存差异

我正在尝试从以下文件中提取以下输出 xr lab show clock Thu Sep 19 14 38 02 812 WIB 14 38 02 893 WIB Thu Sep 19 2019 xr lab xr lab xr lab sh
如何从 tar.gz 存档中删除单个文件

我有一个巨大的 tarbell 存档其中包含过大或损坏的 error log 导致存档在尝试提取它时挂起有没有办法在解压缩或提取存档之前从存档中删除此文件而无需在 Mac OS X 终端上提取该特定文件我找到了这篇关于如何有效地从大
AWS Device Farm - java.lang.ClassNotFoundException：未找到类“androidx.test.runner.AndroidJUnitRunner”

再会我正在尝试使用 AWS Device Farm 进行仪器测试但对于某些设备我收到此错误 02 17 19 22 26 157 15281 15281 E AndroidRuntime FATAL EXCEPTION main 02
如何在 Angular 库中包含图像？

我创建了一个简单的 Angular 库我希望我的库也显示图像问题是如果我将图像包含在库的模块文件夹中然后从模块内部引用它则会收到 404 错误据我所知在 Angular 项目中图像必须放置在 assets 文件夹中但我确实
在另一种语言中使用 dateFormatter [重复]

这个问题在这里已经有答案了我正在运行一段返回的代码nil在具有不同语言设置的 iPhone 上运行时代码示例如下所示 let dateFormatter DateFormatter dateFormatter dateFormat MM
适用于 Objective-C / iPhone 的良好 HTTP 库？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 UPDATE 这个问题显然已经过时了参见日期我建议只使用现代 iOS7 功能例如 NSURLSession 我想这个问题是为了历史
Bigquery dbt_external_tables 外部数据配置

使用 dbt external tables 包时我需要一些帮助我意识到在 GCS 中的 csv 中有些行似乎有换行符这在尝试查询由宏创建的表时会导致一些问题有时手动配置外部表时 BigQuery UI 有两个选项允许锯齿行
jquery select 如果 option.value 等于某个值，则标记为选中

我有一些关于 jquery 选择的问题就我而言如果option value等于某物标记 aselected为了它在线代码在这里 http jsfiddle net WnEfJ 再次重复代码它引起了Uncaught TypeErro
R 中 SVG 图形的最佳设备？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我想从 R 导出 SVG 图形似乎有两种选择 RSvgDevice 和 Cairo 有人可以对这些包发表评论吗是默认的还是明显比另一个
Guice的@Singleton注解可以继承吗？

假设我有这门课 Singleton public class Parent 和这个类 public class Child extends Parent 在我的 Java 应用程序中我的应用程序依赖于Guice注入来创建对象如果我创建一
在“spring-data-elasticsearch”4.0.4.RELEASE中，如何将SearchHits转换为Page？

In spring data elasticsearch4 0 4 发布 ElasticsearchRestTemplate s queryForPage 方法已弃用需要使用search 相反它返回SearchHits代替Page 那么
使用简单矩阵乘法时出错

我在一次简单的乘法运算中偶然发现了一个错误这让我感到非常惊讶我一直以为这里发生了什么只为矩阵乘法 http www mathworks nl help matlab matlab prog operators html x 2 y z
[APUE]fork后父进程和子进程是否共享相同的文件偏移量？

在 APUE 第 8 3 节中fork function 关于父子进程之间的文件共享它说 It is important that the parent and the child share the same file offset 在
具有白色背景的组合框 DropDownList 样式

我想要一个不可编辑的组合框但仍然显示白色背景颜色因此它的样式有效地类似于默认的组合框样式 DropDown ComboBoxStyle DropDownList 仅提供标准的禁用灰色背景色简单地设置 BackColor Color
如何在 OpenAPI 中定义 XML 对象数组？

我正在使用 OpenAPI 3 0 和 SwaggerHub 设计一个 API 我的 API 有一个 GET 端点它以 XML 格式返回员工数组
验证 Transformer 中多头注意力的实现

我已经实施了MultiAttention head in Transformers 周围有太多的实现所以很混乱有人可以验证我的实施是否正确 DotProductAttention 引用自 https www tensorflow org
拥有财产的种子实体

我正在尝试在我的数据库中播种用户实体这User实体拥有自有财产EmailPermissions 当我运行命令时 dotnet ef 迁移添加初始我收到错误无法添加实体类型 User 的种子实体因为它设置了导航 EmailPermis
Infowindow 仅适用于 1 条路线，不适用于 google 地图中的其他 3 条路线

我在谷歌地图上总共有 5 个位置我已经为此设置了标记并在标记之间添加了路线路径在这条路径之间我添加了信息窗口但它仅适用于 1 条路线不适用于其他 3 条路线任何人都可以帮忙吗我为什么它不适用于其他 3 条路线而且在关闭该信息窗
使用 LightGBM 进行多类分类

我正在尝试使用 Python 中的 LightGBM 为多类分类问题 3 类建模分类器我使用了以下参数 params task train boosting type gbdt objective multiclass num clas

使用 LightGBM 进行多类分类

使用 LightGBM 进行多类分类 的相关文章

随机推荐

热门标签

使用 LightGBM 进行多类分类的相关文章