rpart 决策树中的 rel 误差和 x 误差有什么区别？ [关闭]

2024-05-21

我有一个来自 UCI 机器学习数据库的纯分类数据框https://archive.ics.uci.edu/ml/datasets/Diabetes+130-US+hospitals+for+years+1999-2008 https://archive.ics.uci.edu/ml/datasets/Diabetes+130-US+hospitals+for+years+1999-2008

我正在使用 rpart 根据患者是否在 30 天前返回的新类别（新的失败类别）形成决策树。

我的决策树使用以下参数

    tree_model <- rpart(Failed ~ race + gender + age+ time_in_hospital+ medical_specialty + num_lab_procedures+ num_procedures+num_medications+number_outpatient+number_emergency+number_inpatient+number_diagnoses+max_glu_serum+ A1Cresult+metformin+glimepiride+glipizide+glyburide+pioglitazone+rosiglitazone+insulin+change,method="class", data=training_data, control=rpart.control(minsplit=2, cp=0.0001, maxdepth=20, xval = 10), parms = list(split = "gini"))

打印结果产生：

       CP     nsplit rel error  xerror     xstd
1 0.00065883      0   1.00000  1.0000   0.018518
2 0.00057648      8   0.99424  1.0038   0.018549
3 0.00025621     10   0.99308  1.0031   0.018543
4 0.00020000     13   0.99231  1.0031   0.018543

我看到随着决策树分支的增加，相对误差会下降，但是 xerror 会上升 - 我不明白这一点，因为我认为错误会减少分支越多，树就越复杂。

我认为 xerror 是最重要的，因为大多数树修剪方法都会从根部修剪树。

为什么修剪树时要重点关注xerror？而当我们总结一下决策树分类器的误差是多少时，误差是0.99231还是1.0031？

x-error 是交叉验证错误（rpart 有内置交叉验证）。您可以一起使用 rel_error、xerror 和 xstd 这 3 列来帮助您选择修剪树的位置。

每行代表树的不同高度。一般来说，树的层数越多意味着训练时的分类误差越低。但是，您面临过度拟合的风险。通常，随着树获得更多级别（至少在“最佳”级别之后），交叉验证错误实际上会增加。

经验法则是选择lowest水平，其中rel_error + xstd < xerror.

如果你跑plotcp在您的输出中，它还会向您显示修剪树的最佳位置。

另请参阅 SO 线程如何计算决策树的错误率？ https://stackoverflow.com/questions/9666212/how-to-compute-error-rate-from-a-decision-tree

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

machinelearning

Decisiontree

rpart

rpart 决策树中的 rel 误差和 x 误差有什么区别？ [关闭] 的相关文章

将列指定为多个组合回归模型中的特征和标签 (ML.NET)

我正在使用 ML NET 使用回归模型来预测一系列值我只对预测的一列分数列感兴趣但是其他一些列的值不可用于预测类我不能将它们保留为 0 因为这会扰乱预测所以我想它们也必须被预测我看到一个类似的问题here https sta
在 data.table 中进行浅复制

我在一个 SO 主题中读到 Matt Dowle 关于一个问题的回答shallow函数进行浅拷贝data table 然而我再也找不到话题了 data table没有任何调用的导出函数shallow 有一个内部的但没有记录我可以安全地
由于 NA，无法对数据帧进行子集化（过滤）

为什么在 dplyr 下面的代码中filter不返回与基本 R 子集相同的 data frame 事实上它们都没有按预期工作我想删除观察行同时 b 1 AND c 1 也就是说我只想删除第三行 require dplyr df l
如何在 R 中调整/控制树形图中的比例（使用“portfolio”库）？

我正在使用 R 和 portfolio 库来构建树形图比例默认为 1000 到 1000 例如我需要它是 0到1000 我知道 map market 有一个 scale 参数但我不知道要传递给它什么围绕零的对称颜色映射被硬编码到ma
如何绘制沿染色体图形的位置

我想生成一个图描绘我所研究的生物体的 14 条线性染色体按比例绘制并在每条染色体的指定位置上用彩色条表示理想情况下我想使用 R 因为这是我有经验的唯一编程语言我探索了多种方法来做到这一点例如使用 GenomeGraphs 但我
闪亮错误：参数暗示行数不同

我正在尝试开发一个简单的应用程序从 Kijiji 网站获取本地分类广告我用几乎相同的脚本制作了一个类似的应用程序但我没有收到下面描述的错误所以我不知道这个脚本出了什么问题我尝试了我能想到的一切但无法让它发挥作用的结构df数据框
ggplot `facet_grid` 标签被切断

In ggplot 当使用facet grid space free y 如果组内的点数较少则分面标题会被截断例如 library tidyverse d lt tibble x factor 1 40 y rnorm 40 g c r
Rsolnp：在 cbind(temp, funv) 中：结果的行数不是向量长度的倍数（arg 1）

我是 stackoverflow 的新手搜索了很多但找不到我的问题的答案我正在尝试使用优化包 Rsolnp 来最小化以下问题尽管求解器为我提供了解决方案但每次运行代码时我都会收到以下警告消息警告消息 1 在 cbind temp
如何让 print() 将参数传递给 R 中用户定义的打印方法？

我在 R 中定义了一个 S3 类它需要自己的打印方法当我创建这些对象的列表并打印它时 R 按其应有的方式对列表中的每个元素使用我的打印方法我想对打印方法实际显示的数量进行一些控制因此我的类的 print 方法需要一些额外的参数但
LaTex 中与 knit 和 xtable 交叉引用的问题

我目前正在与 R Studio 合作使用 LaTex 中的 R knitr 生成 PDF 文档在这些文档中我想在文本中引用的表格中展示我的部分结果我使用 R 中的 xtable 包生成这些表它运行良好并为我提供了正确的表到目前为
R 根据事件更新值

我最近发布了这个问题该问题已经与我在笔记本电脑上本地使用的 Mysql 数据库相关由于我在 Mysql 中没有找到问题的解决方案其他人似乎也没有找到解决方案所以我想再次发布它但现在与 R 相关我使用带有 RMysql 包的数据库
返回数据帧 R 中的下一行

我有一个看起来像这样的数据框 kind datetime book 2016 04 23 04 23 00 pen 2016 04 23 04 30 00 toy 2016 04 23 06 45 00 我想为数据集中的每一行返回下一行的日
如何在for循环中引用变量？

我正在循环访问不同的 data tables 和 data table 中的变量但我在引用内部变量时遇到问题for loop dt1 lt data table a1 c 1 2 3 a2 c 4 5 2 dt2 lt data tabl
使用 broom 和 tidyverse 总结 r 平方游戏

我发布了一个问题here https stackoverflow com questions 48627287 getting adjusted r squared value for each line in a geom smooth
R中的一元加/减是什么？

来自 R 的详细信息部分Syntax http stat ethz ch R manual R patched library base html Syntax html帮助页面定义了以下一元和二元运算符他们被列出在优先级组中从最高
R foreach问题（某些进程返回NULL）

我遇到了问题foreach我正在 R 中使用的程序的一部分该程序用于运行不同参数的模拟然后将结果返回到单个列表然后用于生成报告当并非所有分配的模拟运行都在报告上实际可见时就会出现问题从各方面来看似乎只有分配的运行的一个子集实际
如何删除箱线图上的刻度线

我试图从箱线图中删除 x 轴刻度线但保留与刻度线关联的标签这在基础 R 中可能吗 colors lt c lightskyblue3 gray78 gold1 wheat1 boxplot avgscore module data mi
我无法下载 R 中的 reshape2 包 [关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我在尝试安装 R 包时收到此响应 gt installed packages reshape2 Package LibPath V
R - Plm 和 lm - 固定效应

我有一个平衡面板数据集 df 本质上由三个变量组成 A B and Y 对于一堆独特识别的区域来说它会随着时间的推移而变化我想运行一个回归其中包括区域下面等式中的区域和时间年份固定效应如果我没记错的话我可以通过不同的方式来
多功能测试仪替代 system.time

我已经看到我认为是这样使用了类似于 system time 的函数它可以同时评估多个函数的时间并输出一个输出我不记得它是什么并且用我正在使用的术语进行互联网搜索并没有得到我想要的响应有人知道我正在谈论的功能的名称位置吗你想要

随机推荐

报告线程进度的最佳方式

我有一个程序它使用线程顺序执行耗时的进程我希望能够监视每个线程的进度类似于BackgroundWorker ReportProgress ProgressChanged模型确实如此我不能使用ThreadPool or Backgro
防止字符串中出现西里尔文/希腊文/中文 - C# 4.0

我们有一个支持希腊语西里尔语中文字符的系统使用 ASP NET C 4 0 但第三方系统似乎无法正常工作为了避免为此第三方系统输入数据时出现问题我想将文本字段限制为仅接受英语或重音字符但返回其他字符的验证错误我怎样才能做到这一
如何在蓝牙低功耗外设中正确设置日期和时间？

我正在开发一个传感器设备和一个相应的 iOS 应用程序它们将使用低功耗蓝牙进行通信传感器设备需要在实时时钟中维护当前日期和时间现在如果我想尽可能地实现蓝牙标准服务我很困惑在传感器设备中设置时间和日期的正确方法是什么因为官方文档是
jQuery 文件上传预览图像

我正在使用 jQuery 文件上传插件 http blueimp github io jQuery File Upload http blueimp github io jQuery File Upload 用于我的网站的图像上传我已经看
如何在没有 JQuery 的情况下模仿跨浏览器 $(document).ready() 行为[重复]

这个问题在这里已经有答案了可能的重复 document ready 相当于没有 jQuery https stackoverflow com questions 799981 document ready equivalent witho
上传图像 onclick 多个蒙版图像

一旦用户单击蒙版图像我们就允许用户上传自定义图像如果有单个蒙版图像则效果很好 https codepen io kidsdial pen jJBVON https codepen io kidsdial pen jJBVON 要求但
如何使用“instanceof”实现泛型的“equals”方法？

我有一堂课接受泛型我想覆盖equals以一种不尴尬的方式即看起来干净并且代码量最少的东西但对于非常一般的用例现在我有这样的事情 public class SingularNode
python pandas从0/1数据帧到项目集列表

从这种形式的 0 1 pandas numpy 数据帧中最有效的方法是什么 gt gt gt dd a 0 1 1 0 2 1 3 0 4 1 5 1 b 0 1 1 1 2 0 3 0 4 1 5 1 c 0 0 1 1 2 1 3 0
ValidateAntiForgeryToken 如何适应可通过 Web 或本机应用程序访问的 Web API？

我试图了解如何使用 ASP NET Web API 制作一个 API 该 API 将受到保护CSRF http www asp net web api overview security preventing cross site requ
为什么我的结果仍然无法重现？

我想要为 CNN 获得可重复的结果我使用带有 GPU 的 Keras 和 Google Colab 除了建议插入某些代码片段这应该允许再现性之外我还在层中添加了种子 This is the first code snipped to
IOPS 与吞吐量。选择 AWS EBS 时使用哪一种

在选择合适的 EBS 卷类型时我需要决定IOPS 或吞吐量是否是更好的性能衡量标准 https docs aws amazon com en us AWSEC2 latest UserGuide EBSVolumeTypes html问题
如何让孩子做出反应

我正在尝试做我自己的Tabs组件以便我可以在我的应用程序中使用选项卡然而我似乎在尝试按类型提取我需要的子组件时遇到问题 import React from react export class Tabs extends React C
跨类加载器的 Java 8 ScriptEngine

我需要在不同的类加载器内部执行一些 JavaScript 代码如果是java 每个任务将在单独的类加载器中运行现在我需要它是 javascript 我需要创建新实例吗ScriptEngine在每个类加载器中或者可以跨类加载器共享一
Travis CI 可以在同一存储库的不同分支中使用加密文件吗？

我正在尝试让 Travis CI 构建在我自己的私人分支和我组织的存储库中工作我使用以下方法加密了配置文件travis encrypt file命令它似乎在我自己的 fork 的 travis 设置中创建了两个环境变量如下所示加密
为什么 cordova.file.documentsDirectory 为空？

我正在尝试使用 cordova plugin file transfer 在http ngcordova com docs plugins fileTransfer http ngcordova com docs plugins fileT
如何使用RStudio用Stata命令编写RMarkdown文件？

我的问题已在标题中解释我尝试编译一个示例 Rmd 我在这里找到 http www ssc wisc edu hemken Stataworkshops Stata 20and 20R 20Markdown http www ssc wis
matplotlib 和地理数据图的纵横比

我处理地理信息并使用以下方式呈现结果 matplotlib 所有输入都是纬度经度度我转换成 x y 米用于我的计算我在中展示了我的结果纬度经度问题是获得图形的纵横比右所有图表都太宽是否有标准程序来设置正确的纵横比这
任何第三方都可以从我的项目加载嵌入式资源吗？

请参考我的一篇之前的问题 https stackoverflow com questions 14681364 issues passing data from dll to application 我问的是如何从 DLL 加载已编译的资源
jquery：$().animate() 不是函数

我已经做了很多搜索但无法找到我的问题的答案所以这里是我正在尝试创建一个滑出切换菜单本教程 http alijafarian com jquery horizontal slideout menu 我收到一个错误slideoutMenu
rpart 决策树中的 rel 误差和 x 误差有什么区别？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我有一个来自 UCI 机器学习数据库的纯分类数据框https archive ics uci edu ml datasets Diabet

rpart 决策树中的 rel 误差和 x 误差有什么区别？ [关闭]

rpart 决策树中的 rel 误差和 x 误差有什么区别？ [关闭] 的相关文章

随机推荐

热门标签