机器学习训练营LightGBM学习笔记

2023-11-17

学习知识点概要

1.LightGBM

2.LightGBM的实现

学习内容

1.LightGBM

LightGBM可以看作是XGBoost的升级豪华版，在获得与XGBoost近似精度的同时，又提供了更快的训练速度与更少的内存消耗。

其优缺点和XGBoost相似

LightGBM底层实现了GBDT算法，并且添加了一系列的新特性：

基于直方图算法进行优化，使数据存储更加方便、运算更快、鲁棒性强、模型更加稳定等。
提出了带深度限制的 Leaf-wise 算法，抛弃了大多数GBDT工具使用的按层生长 (level-wise) 的决策树生长策略，而使用了带有深度限制的按叶子生长策略，可以降低误差，得到更好的精度。
提出了单边梯度采样算法，排除大部分小梯度的样本，仅用剩下的样本计算信息增益，它是一种在减少数据量和保证精度上平衡的算法。
提出了互斥特征捆绑算法，高维度的数据往往是稀疏的，这种稀疏性启发我们设计一种无损的方法来减少特征的维度。通常被捆绑的特征都是互斥的（即特征不会同时为非零值，像one-hot），这样两个特征捆绑起来就不会丢失信息。

LightGBM是基于CART树的集成模型，它的思想是串联多个决策树模型共同进行决策。

2.LightGBM的实现

采用了英雄联盟的数据

对数据进行了，分布分析等来判断特征的影响

比较详细的调参

num_leaves参数 这是控制树模型复杂度的主要参数，一般的我们会使num_leaves小于（2的max_depth次方），以防止过拟合。由于LightGBM是leaf-wise建树与XGBoost的depth-wise建树方法不同，num_leaves比depth有更大的作用。、
min_data_in_leaf 这是处理过拟合问题中一个非常重要的参数. 它的值取决于训练数据的样本个树和 num_leaves参数. 将其设置的较大可以避免生成一个过深的树, 但有可能导致欠拟合. 实际应用中, 对于大数据集, 设置其为几百或几千就足够了.
max_depth 树的深度，depth 的概念在 leaf-wise 树中并没有多大作用, 因为并不存在一个从 leaves 到 depth 的合理映射。

针对训练速度的参数调整

通过设置 bagging_fraction 和 bagging_freq 参数来使用 bagging 方法。
通过设置 feature_fraction 参数来使用特征的子抽样。
选择较小的 max_bin 参数。
使用 save_binary 在未来的学习过程对数据加载进行加速。

针对准确率的参数调整

使用较大的 max_bin （学习速度可能变慢）
使用较小的 learning_rate 和较大的 num_iterations
使用较大的 num_leaves （可能导致过拟合）
使用更大的训练数据
尝试 dart 模式

针对过拟合的参数调整

使用较小的 max_bin
使用较小的 num_leaves
使用 min_data_in_leaf 和 min_sum_hessian_in_leaf
通过设置 bagging_fraction 和 bagging_freq 来使用 bagging
通过设置 feature_fraction 来使用特征子抽样
使用更大的训练数据
使用 lambda_l1, lambda_l2 和 min_gain_to_split 来使用正则
尝试 max_depth 来避免生成过深的树

学习问题与解答

1.这里看到有bin的出现是否表示有分箱？

2.串联决策树，思想和XGBoost是一样的，不同之处在哪里？（CART回归树）

学习思考与总结

这两个模型（XGB和LIGHTXGB）经常在竞赛中同时出现值得研究

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

天池学习笔记

逻辑回归

python

机器学习

机器学习训练营LightGBM学习笔记的相关文章

Python 的键盘中断不会中止 Rust 函数 (PyO3)

我有一个使用 PyO3 用 Rust 编写的 Python 库它涉及一些昂贵的计算单个函数调用最多需要 10 分钟从 Python 调用时如何中止执行 Ctrl C 好像只有执行结束后才会处理所以本质上没什么用最小可重现示例 Ca
将数据从 python pandas 数据框导出或写入 MS Access 表

我正在尝试将数据从 python pandas 数据框导出到现有的 MS Access 表我想用已更新的数据替换 MS Access 表在 python 中我尝试使用 pandas to sql 但收到错误消息我觉得很奇怪使用 p
Python（Selenium）：如何通过登录重定向/组织登录登录网站

我不是专业程序员所以请原谅任何愚蠢的错误我正在做一些研究我正在尝试使用 Selenium 登录数据库来搜索大约 1000 个术语我有两个问题 1 重定向到组织登录页面后如何使用 Selenium 登录 2 如何检索数据库在我解决
Django：按钮链接

我是一名 Django 新手用户尝试创建一个按钮单击该按钮会链接到我网站中的另一个页面我尝试了一些不同的例子但似乎没有一个对我有用举个例子为什么这不起作用
Flask 会话变量

我正在用 Flask 编写一个小型网络应用程序当两个用户在同一网络下尝试使用应用程序时我遇到会话变量问题这是代码 import os from flask import Flask request render template
如何在 Python 中检索 for 循环中的剩余项目？

我有一个简单的 for 循环迭代项目列表在某些时候我知道它会破裂我该如何退回剩余的物品 for i in a b c d e f g try some func i except return remaining items if s
PyUSB 1.0：NotImplementedError：此平台不支持或未实现操作

我刚刚开始使用 pyusb 基本上我正在玩示例代码here https github com walac pyusb blob master docs tutorial rst 我使用的是 Windows 7 64 位并从以下地址下载 z
Python pickle：腌制对象不等于源对象

我认为这是预期的行为但想检查一下也许找出原因因为我所做的研究结果是空白我有一个函数可以提取数据创建自定义类的新实例然后将其附加到列表中该类仅包含变量然后我使用协议 2 作为二进制文件将该列表腌制到文件中稍后我重新运行脚本
如何加速Python中的N维区间树？

考虑以下问题给定一组n间隔和一组m浮点数对于每个浮点数确定包含该浮点数的区间子集这个问题已经通过构建一个解决区间树 https en wikipedia org wiki Interval tree 或称为范围树或线段树已经针对一
如何使用 OpencV 从 Firebase 读取图像？

有没有使用 OpenCV 从 Firebase 读取图像的想法或者我必须先下载图片然后从本地文件夹执行 cv imread 功能有什么办法我可以使用cv imread link of picture from firebase 您可以
绘制方程

我正在尝试创建一个函数它将绘制我告诉它的任何公式 import numpy as np import matplotlib pyplot as plt def graph formula x range x np array x rang
如何使用Python创建历史时间线

So I ve seen a few answers on here that helped a bit but my dataset is larger than the ones that have been answered prev
在f字符串中转义字符[重复]

这个问题在这里已经有答案了我遇到了以下问题f string gt gt gt a hello how to print hello gt gt gt f a a gt gt gt f a File
如何在Python中对类别进行加权随机抽样

给定一个元组列表其中每个元组都包含一个概率和一个项目我想根据其概率对项目进行采样例如给出列表 3 a 4 b 3 c 我想在 40 的时间内对 b 进行采样在 python 中执行此操作的规范方法是什么我查看了 random 模
对年龄列进行分组/分类

我有一个数据框说df有一个柱子 Ages gt gt gt df Age 0 22 1 38 2 26 3 35 4 35 5 1 6 54 我想对这个年龄段进行分组并创建一个像这样的新专栏 If age gt 0 age lt 2 the
解释 Python 中的数字范围

在 Pylons Web 应用程序中我需要获取一个字符串例如关于如何做到这一点有什么建议吗我是 Python 新手我还没有找到任何可以帮助解决此类问题的东西该列表将是 1 2 3 45 46 48 49 50 51 77 使用
类型错误：预期单个张量时的张量列表 - 将 const 与 tf.random_normal 一起使用时

我有以下 TensorFlow 代码 tf constant tf random normal time step batch size 1 1 我正进入状态TypeError List of Tensors when single Te
Conda SafetyError：文件大小不正确

使用创建 Conda 环境时conda create n env name python 3 6 我收到以下警告 Preparing transaction done Verifying transaction SafetyError Th
导入错误：没有名为 site 的模块 - mac

我已经有这个问题几个月了每次我想获取一个新的 python 包并使用它时我都会在终端中收到此错误 ImportError No module named site 我不知道为什么会出现这个错误实际上我无法使用任何新软件包因为每次我
NotImplementedError：无法将符号张量 (lstm_2/strided_slice:0) 转换为 numpy 数组。时间

张量流版本 2 3 1 numpy 版本 1 20 在代码下面 define model model Sequential model add LSTM 50 activation relu input shape n steps n fe

随机推荐

jvm 内存分配

1 任何对象都是以8字节为粒度进行对齐的 2 类属性按照如下优先级进行排列长整型和双精度类型 8字节整型和浮点型 4字节字符和短整型 2字节字符类型和布尔类型 1字节最后时引用类型 3 不同类型继承关系类的成员不能混合排列首先按
程序员究竟还需要读书么？

近来看了2篇和读书有关的文章一篇提到Joel讲现在程序员不太读书了主要靠在网上找各种参考资料一篇则是马总说的成功与情商有关与读书多少关系不大一定程度上这两个观点都有点道理可以靠StackOverflow com和搜索引擎找到各
1 FFmpeg从入门到精通-FFmpeg简介

1 FFmpeg从入门到精通 FFmpeg简介 2 FFmpeg从入门到精通 FFmpeg工具使用基础 3 FFmpeg从入门到精通 FFmpeg转封装 4 FFmpeg从入门到精通 FFmpeg转码 5 FFmpeg从入门到精通 FFmp
一个人开发APP系列之实战1 制作APP产品启动图标

声明写这个博客系列也是为了清晰思路新手写的不好请大神们指导指导建议想学的还是先去android develops官网看看相关资料吧好了不闲扯了进入正题今天的目的是使用Android Studio自带的工具Image Asse
TencentOS-tiny 功耗管理（二十二）- tickless（低功耗）

一功耗管理 tickless 概述 TencentOS tiny的tickless机制提供了一套非周期性时钟的方案在系统无需systick驱动调度的情况下停掉systick 初级功耗管理方案下因为还有系统systick的存在因此系
python机器人编程——差速AGV机器、基于视觉和预测控制的循迹、自动行驶（下篇）

目录一前言二基于轨迹与路面重心偏离度误差的预测自动差速小车循迹控制策略三轨迹图像的处理要点四本篇部分核心控制策略python代码五结论一前言基于最近的测试得到了一种粗略控制的算法其控制效果适合单线路和急转弯的情
DevExpress控件手册

https www evget com article 2018 7 17 28180 html 手册是全英文的有chm和pdf两种格式 winform手册有两百来兆内容的确是很详细了每个控件还有入门的详细例子建议下载CHM格式的
【AUTOSAR】CCP协议的代码分析与解读（二）----CCP协议格式和命令代码

CCP协议介绍 CCP的全称是CAN Calibration Protocol CAN标定协议是基于CAN总线的ECU标定协议规范 CCP协议遵从CAN2 0通信规范支持11位标准与29位扩展标识符 CCP通信方式 CCP协议采用主从通
单链表的增删改查

链表的增改查删 public class LinkLIST int size 节点个数 NewNode head 头节点地址 class NewNode int val 存放具体数据 NewNode next 存下一个节点的地址 pu
python全排列库_python——全排列数的生成方式

问题描述输入整数N 1 lt N lt 10 生成从1 N所有整数的全排列输入形式输入整数N 输出形式输出有N 行每行都是从1 N所有整数的一个全排列各整数之间以空格分隔各行上的全排列不重复输出各行遵循小数优先原则在各
基于STM32、OV2640及ESP8266的无线图传

一简介本文利用STM32F407单片机 OV2640摄像机模块以及ESP8266 WIFI模块并基于C 编写的TCP上位机服务来实现图像的无线传输本文受启发于博客 ESP8266 STM32F407 OV7670实现图片传输在此
python3安装pyhanlp (中文自然语言处理的工具包) 超详细。

第一步首先要有个python的环境还得有个java的环境安装jdk8以上并配置好环境变量自己想办法第二步下载jpype的安装包下载完成后切换到下载路径直接用pip装 pip3 install JPype1 0 6 3 cp
外观（Facade）模式

什么是 Facade 模式 Facade 外观模式为子系统中的各类或结构与方法提供一个简明一致的界面隐藏子系统的复杂性使子系统更加容易使用出自百度文库即当子系统复杂或者繁锁时我们让子系统提供一个窗口程序中称为接口其它程序
BeanFactory和FactoryBean的区别

区别 https liayun blog csdn net article details 110391066 BeanFactory是个Factory 也就是IOC容器或对象工厂而FactoryBean就是个Bean 在Spring中
30个iPhone和iPad应用程序界面设计实例

6月 5 日消息据国外媒体报道在今天的现代技术驱动下手机行业更多的是迎接着 iPhone 和 iPad 的到来 iPhone 平台是在互联网用户中相当流行因为它允许他们开发甚至用很少的编程知识的应用程序设计苹果提供的应用程序界面
windows11如何安装docker desktop

我们知道docker的安装一般我们是安装在linux系统上的但是如果你的宿主机是windows 那么你还想装docker 那么就需要现在你的windows上装上虚拟机虚拟机上装linux操作系统然后在Linux操作系统上再去安装doc
BizTalk2010简介

绝大多数现代业务流程都或多或少地依赖于其它软件尽管其中部分流程仅由单个应用程序支持但其他许多业务流程都依赖于不同的软件系统在许多情况下已使用不同的技术在不同时间不同平台上创建了此软件若要使这些业务程序实现自动化则需要连接不同系
大屏可视化关键技术

大屏可视化的技术中涉及的范围会比较广拆开来说诸如各种LED视频技术互联网技术智能技术视觉设计技术等等这些技术都是跟大屏可视化有着千丝万缕断不开的关系但真正影响到大屏可视化关键技术却在于下面的3点上大屏可视化关键技术第1是大数
系统及服务器巡检流程图,业务巡检系统的整体设计和数据流程

这是学习笔记的第1789篇文章近期也总结了几篇关于巡检的内容很多同学也很期待说业务巡检是一个新概念想做成什么样子或者说怎么样做起来更好一些最近的几篇文章在这个基础上我自己也梳理了不少方面的内容其实发起做这个事情脑子里面已
机器学习训练营LightGBM学习笔记

学习知识点概要 1 LightGBM 2 LightGBM的实现学习内容 1 LightGBM LightGBM可以看作是XGBoost的升级豪华版在获得与XGBoost近似精度的同时又提供了更快的训练速度与更少的内存消耗其优缺点和

机器学习训练营LightGBM学习笔记

机器学习训练营LightGBM学习笔记 的相关文章

随机推荐

热门标签

机器学习训练营LightGBM学习笔记的相关文章