随机森林中什么是袋外错误？ [关闭]

2024-02-08

随机森林中什么是袋外错误？它是在随机森林中找到正确数量的树的最佳参数吗？

我将尝试解释一下：

假设我们的训练数据集由 T 表示，并且假设数据集有 M 个特征（或属性或变量）。

T = {(X1,y1), (X2,y2), ... (Xn, yn)}

and

Xi is input vector {xi1, xi2, ... xiM}

yi is the label (or output or class).

射频总结：

随机森林算法是主要基于两种方法的分类器 -

Bagging
随机子空间方法。

假设我们决定有S我们森林中的树木数量，然后我们首先创建S的数据集"same size as original"通过对 T 中的数据进行随机重采样并进行替换而创建（每个数据集 n 次）。这将导致{T1, T2, ... TS}数据集。其中每一个都称为引导数据集。由于每个数据集都有“替换”TiTi 可能有重复的数据记录，并且 Ti 可能会丢失原始数据集中的多个数据记录。这就是所谓的Bootstrapping。 (en.wikipedia.org/wiki/Bootstrapping_(统计))

Bagging 是采用引导程序然后聚合在每个引导程序上学习到的模型的过程。

现在，RF创造了S树木和用途m (=sqrt(M) or =floor(lnM+1))随机子特征M创建任何树的可能功能。这称为随机子空间方法。

所以对于每个Ti引导数据集创建一棵树Ki。如果你想对一些输入数据进行分类D = {x1, x2, ..., xM}你让它穿过每棵树并产生S输出（每棵树一个）可以表示为Y = {y1, y2, ..., ys}。最终预测是对该组的多数投票。

袋外错误：

创建分类器后（S树），对于每个(Xi,yi)在原始训练集中，即T，全选Tk其中不包括(Xi,yi)。请注意，该子集是一组引导数据集，其中不包含原始数据集中的特定记录。该集合称为袋外示例。有n这样的子集（原始数据集 T 中的每个数据记录一个）。 OOB 分类器仅是投票的聚合Tk使得它不包含(xi,yi).

泛化误差的袋外估计是袋外分类器在训练集上的错误率（与已知的比较）yi's).

它为什么如此重要？

The study of error estimates for bagged classifiers in Breiman [1996b] https://www.stat.berkeley.edu/~breiman/OOBestimation.pdf, gives empirical evidence to show that the out-of-bag estimate is as accurate as using a test set of the same size as the training set. Therefore, using the out-of-bag error estimate removes the need for a set aside test set.^{1 https://doi.org/10.1023/A:1010933404324.}

（感谢@Rudolf 的更正。他的评论如下。）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

随机森林中什么是袋外错误？ [关闭] 的相关文章

如何使用 lstm 执行多类多输出分类

I have multiclass multioutput classification see https scikit learn org stable modules multiclass html https scikit lear
使用 CNN 和 pytorch 计算每个类别的准确度

我可以使用此代码计算每个时期后的准确性但是我想最后计算每个班级的准确性我怎样才能做到这一点我有两个文件夹 train 和 val 每个文件夹有 7 个不同类别的 7 个文件夹 train 文件夹用于训练否则 val 文件夹用于测试
如果数据库可访问，加盐和散列有什么意义？

我刚刚学习了散列的概念嘿不要忘记盐并使用盐来确保密码安全散列它是一种单向加密实际上不是加密而是散列因此无法对其进行逆向工程加盐是在散列之前在密码上添加随机创建的值的前缀或附加值因为散列只是散列的问题是一些天才提供了字典
神经网络的激活函数选择[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我们可以对神经网络的隐藏层和输出层使用不同的激活函数吗使用这种方案有什么明显的优势吗对于网络的最后一层激活单元也取决于任务分类
更改随机森林分类器的阈值

我需要开发一个没有或接近没有假阴性值的模型为此我绘制了召回率精度曲线并确定阈值应设置为 0 11 我的问题是如何定义模型训练时的阈值稍后在评估时定义它是没有意义的因为它不会反映新数据 X train X test y tr
如何检查 AJAX 请求的真实性

我正在设计一个网站让用户尽快解决谜题 JavaScript 用于为每个谜题计时当谜题完成时毫秒数通过 AJAX 发送到服务器如何保证服务器收到的时间不是用户伪造的我不认为基于会话的真实性令牌 Rails 中用于表单的那种就足够了
使用 scikit-learn 在朴素贝叶斯分类器中混合类别数据和连续数据

我正在使用 Python 中的 scikit learn 开发分类算法来预测某些客户的性别除此之外我想使用朴素贝叶斯分类器但我的问题是我混合了分类数据例如在线注册接受电子邮件通知等和连续数据例如年龄长度会员资格等
如何使用WordNet或与wordnet相关的类别来实现基于类别的文本标记？

如何使用wordnet按单词类别标记文本 java作为接口 Example 考虑以下句子 1 计算机需要键盘显示器 CPU才能工作 2 汽车使用齿轮和离合器现在我的目标是例句必须标记为第 1 句话电脑电子键盘电子中央处理器电
使用 NLTK 生成字典以将推文分类为预定义类别

我有一个 Twitter 用户 screen names 列表我需要根据他们的兴趣领域将他们分为 7 个预定义类别教育艺术体育商业政治汽车技术我用 Python 提取了用户的最后 100 条推文并在清理推文后为每个用户创
如何将惰性变量传递给函数参数而不对其求值，除非返回

这个问题是针对python的尽管我不介意用户分享其他语言的经验基本上我的问题是尝试将惰性变量传递给函数就我而言我可能无法控制该函数因此无法更改它以将生成器作为输入示例请注意 dict get 是函数的示例但它很可能是 foo
地图应用的聚类算法

我正在研究地图上的聚类点纬度经度对于快速且可扩展的合适算法有什么建议吗更具体地说我有一系列纬度经度坐标和一个地图视口我正在尝试将靠近的点聚集在一起以消除混乱我已经有了解决问题的方法 see here http bouldr
为什么连接终止

我正在尝试使用随机森林分类模型H2OR 内部的库训练集有 7000 万行和 25 个数字特征总文件大小为 5 6 GB 验证文件的大小为 1 GB 我的系统有 16 GB RAM 和 8 核 CPU 系统成功读取 H2O 对象中的两个文
音乐分析软件[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案问候我可能已经想到了这一点但有人知道 Last fm 之前是否使用某种形式的开源项目对音乐进行分析
为什么这个函数不是纯粹的？

在维基百科文章中https en wikipedia org wiki Pure function Impure functions https en wikipedia org wiki Pure function Impure func
如何知道您的单元测试装置是否“尺寸合适”？

您如何知道测试夹具的尺寸是否合适我所说的测试夹具是指一个包含大量测试的类我在测试装置中一直注意到的一件事是它们变得有点冗长鉴于它们也可能不够详细您如何了解单元测试的大小是否合适我的假设是至少在 Web 开发的背景下您应
从原点开始在离散 2D 网格上迭代向外螺旋的算法

例如这是预期螺旋的形状以及迭代的每个步骤 y 16 15 14 13 12 17 4 3 2 11 18 5 0 1 10 x 19 6 7 8 9 20 21 22 23 24 其中线条是 x 轴和 y 轴以下是算法每次迭代返回
使用 to_categorical 转换 np.array 时出现内存问题

我有一个像这样的 numpy 数组 0 1 1 0 0 1 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 1 0 1 我这样改造它以减少内存需求 x val x val asty
是否有加权水库采样的算法？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案当数据流中的点具有相关权重时是否有一种算法可以执行水库采样 Pavlos Efraimidis 和 Paul Spirakis 的算
shap.TreeExplainer 和 shap.Explainer 条形图之间的区别

对于下面给出的代码我得到了不同的条形图shap values 在此示例中我的数据集为 1000train样本有 9 个类别和 500 个test样品然后我使用随机森林作为分类器并生成模型当我开始生成shap条形图在这两种情况下得到
使用 Tkinter 显示 numpy 数组中的图像

我对 Python 缺乏经验第一次使用 Tkinter 制作一个 UI 显示我的数字分类程序与 mnist 数据集的结果当图像来自 numpy 数组而不是我的 PC 上的文件路径时我有一个关于在 Tkinter 中显示图像的问题我为

随机推荐

go helm 图表模板中的循环[关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我正在尝试在 kubernetes helm 图表中循环计数如下所示 reaction mongo url big mongodb for m
TypeScript 将camelCase 键转换为snake_case

想象一下我们有一些具有驼峰命名法属性的对象类型 type Foo propertyBob string propertyJane number 有没有办法创建一个将camelCase转换为snake case的泛型例如 type foo
发布操作：“提交助手应用程序时出错”，没有显示错误

我正在尝试发布我的第一个 Google Assistant 操作但在尝试提交应用程序时控制台告诉我提交助理应用程序时出错但没有任何详细信息是否有任何日志或其他内容可以为我提供有关在提交之前需要修复的更多详细信息我迷路了谢谢许
Pytorch RuntimeError：CUDA 内存不足且有大量可用内存

在训练模型时我遇到了以下问题 RuntimeError CUDA out of memory Tried to allocate 304 00 MiB GPU 0 8 00 GiB total capacity 142 76 MiB al
使用 NetBeans 6.8 进行 XSLT 自动完成

我记得当时NetBeans 6中支持XSLT 现在我使用NetBeans 6 8 但仍然找不到这样的插件你能帮助我吗工具 gt 插件 gt 设置添加http updates netbeans org netbeans updates 6
优化TreeView方法

我有一个非常大的方法可以插入子元素TreeView 基本上我做了两个不同的查询并在 I N 上设置了很小的更改第一个 foreach 插入父级的第一个子级第二个 foreach 插入之前创建的子级的子级 Foreach查询只是改变条件
Android 兼容包不包含 Activity.getFragmentManager()

我开始尝试使用 3 月 3 日刚刚发布的 Android 兼容包向我的 Android 应用程序添加片段该应用程序基于 2 1 我将该库包含到我的项目中并开始将代码从基于 Activity 的类移动到基于 Fragment 的类但我注
如何在复杂的单元格中找到元素？

我有一个复杂的元胞数组例如 A 1 2 3 4 5 6 7 8 9 10 如何找到A中的元素例如我想检查 9 是否在 A 中如果您的元胞数组可以有任意数量的嵌套级别则只需递归所有级别即可检查值这是一个可以执行此操作的函数 fun
iPhone：如何使用 Xcode 向 Web 服务发送 HTTP 请求

如何使用 Objective C 向 Web 服务发送 HTTP 请求我需要从 MySQL 数据库中获取一些数据因此我需要发送请求以便获取数据编辑因为这是一个热门问题而且时间在不断流逝与此同时 Apple 引入了 NSJSONS
使用第三方库和 Carthage 进行单元测试

使用 Carthage 进行依赖管理的正确方法是什么而且还能够用它为其引入的类型编写测试例如这是假设的如果我引入 AlamoFire 并假设它有一个响应协议和不同的协议具体类型符合响应协议在我自己的图书馆里如果我要做的话 tes
沿给定轴打乱 NumPy 数组

给定以下 NumPy 数组 gt a array 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 洗牌单行很简单 gt shuffle a 0 gt a array 4 2 1 3 5 1 2 3 4 5 1 2 3 4 5 是
如何从 Angular 中的 NgFor 循环中删除重复记录

我正在尝试从 ngfor 循环中删除重复记录并仅保留该记录点击次数最多的记录目标是显示用户的点击 URL 但目前当为同一 URL 创建新记录时它会显示在列表中见下图点击操作按预期进行但一段时间后列表将变得难以辨认我正在尝试展
R：从 Quanteda DFM、稀疏文档特征矩阵、对象中删除正则表达式？

Quanteda 包提供了稀疏文档特征矩阵 DFM 其方法包含删除功能 https rdrr io cran quanteda man removeFeatures html 我努力了dfm x removeFeatures b a z 1
从内核空间到用户空间的事件通知

当内核空间发生事件时如何通知用户空间应用程序当数据到达某个 GPIO 时硬件会生成中断该数据被复制到内核缓冲区此时我希望驱动程序通知应用程序它可以调用read函数将数据从内核缓冲区复制到用户空间缓冲区我想用epoll方法但是e
Pygame 没有在窗口中显示任何内容[重复]

这个问题在这里已经有答案了刚刚开始使用 python 和 pygames 编程每当我尝试使用 pygames 运行 py 文件时都会出现 pygames 窗口但其中绝对没有任何内容日志中没有错误但没有任何显示只是灰屏我尝试在
mysql - 基于其他行更新行

我希望根据其他行的特定条件更新某些行假设表格如下所示 COLUMNS time type genre doubles triples ROW 1 2010 06 21 12 00 1 1 0 0 ROW 2 2010 06 21 12 0
连接字符串向量的向量

我正在尝试编写一个函数该函数接收字符串向量的向量并返回连接在一起的所有向量即它返回字符串向量到目前为止我能做的最好的事情如下 fn concat vecs vecs Vec
java 8 收集器类型不匹配的问题：无法从 List
转换为 List
我正在使用早期版本的 java 8 编写工作代码我用它从列表中获取唯一值但自从我升级到 JDK 66 后它给了我一个错误类型不匹配无法转换List to List

使用 Realm 数据库检查两个字段

我怎样才能创建一个and与 Realm 一起操作示例我有一个包含日期和月份的对象我想检查这两个字段的值就像是 RealmResults

随机森林中什么是袋外错误？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案随机森林中什么是袋外错误它是在随机森林中找到正确数量的树的最佳参数吗我将尝试解释一下假设我们的训练数据集由 T 表示并且假设数

热门标签

什么是法线贴图

无需手动敲密码

测试示例

ULID

浏览器设置暗黑主题

指针数组和数组指针

抓包并分析

攻击代码

通讯协议实战

标准库开发

CMSIS

指向成员函数的指针

打印函数的原理浅析

下运行调试

中头文件路劲包含问题

三轴云台

HAKRC

20201114

自动化之环境搭建

通过指针

Powered by Hwhale

随机森林中什么是袋外错误？ [关闭]

随机森林中什么是袋外错误？ [关闭] 的相关文章

随机推荐

热门标签