从插入符递归特征消除 (rfe) 结果中检索选定的变量

2024-03-25

在我的工作项目中，我使用 caret 包中的 rfe 函数来进行递归特征消除。我用一个玩具例子来说明我的观点。

library(mlbench)
library(caret)
data(PimaIndiansDiabetes)

rfFuncs$summary <- twoClassSummary
control <- rfeControl(functions=rfFuncs, method="cv", number=10)
results <- rfe(PimaIndiansDiabetes[,1:8], PimaIndiansDiabetes[,9], sizes=c(1:8), rfeControl=control, metric="ROC")

选择的最佳变量基于在过程中给出最高 auroc 的那些变量，并且可以通过以下方式检索results$optVariables。但是，我想做的是使用“1 个标准错误规则”来选择较少的功能（代码如下）。识别的变量数量为 4。

# auc that is 1-se from the highest auc 
df.results = results$results %>% dplyr::mutate(ROCSE = ROCSD/sqrt(10-1))
idx = which.max(df.results$ROC)
ROC.1se = df.results$ROC[idx] - df.results$ROCSE[idx]

# plot ROC vs feature size
g = ggplot(df.results, aes(x=Variables, y=ROC)) + 
    geom_errorbar(aes(ymin=ROC-ROCSE, ymax=ROC+ROCSE), 
                  width=.2, alpha=0.4, linetype=1) +
    geom_line() + 
    geom_point()+
    scale_color_brewer(palette="Paired")+
    geom_hline(yintercept = ROC.1se)+
    labs(x ="Number of Variables", y = "AUROC")
print(g)

我确定的变量数量是 4。现在我需要知道是哪四个变量。我做了如下：

results$variables %>% filter(Variables==4) %>% distinct(var)

它显示了 5 个变量！

有谁知道我如何检索这些变量？基本上它适用于获取任意数量的选定变量的这些变量。

预先非常感谢！

一行回答

如果您知道您只需要 rfe 重采样中最好的 4 个变量，这将为您提供所需的内容。

results$optVariables[1:4]
# [1] "glucose"  "mass"     "age"      "pregnant"

dplyr Answer

# results$variables %>%
#    group_by(var) %>%
#    summarize(Overall = mean(Overall)) %>%
#    arrange(-Overall)
#
# A tibble: 8 x 2
#   var      Overall
#   <chr>      <dbl>
# 1 glucose    34.2 
# 2 mass       15.8 
# 3 age        12.7 
# 4 pregnant    7.92
# 5 pedigree    5.09
# 6 insulin     4.87
# 7 triceps     3.25
# 8 pressure    1.95

为什么你的尝试给出了超过 4 个变量

您正在过滤 40 个观察值。最好的 4 个变量的 10 倍。每次折叠中最好的 4 个变量并不总是相同。因此，为了在重新采样中获得最佳的前 4 个变量，您需要像上面的代码那样在折叠中平均它们的性能。更简单的是，里面的变量optVariables按此顺序排序，因此您可以只获取前 4 个（如我的单行答案所示）。要证明这种情况，需要深入研究源代码（如下所示）。

详细信息：深入研究源代码

首先处理从函数返回的对象，例如rfe是尝试类似的功能print, summary, or plot。通常会存在自定义方法，它们将为您提供非常有用的信息。例如...

# Run rfe with a random seed
# library(dplyr)
# library(mlbench)
# library(caret)
# data(PimaIndiansDiabetes)
# rfFuncs$summary <- twoClassSummary
# control <- rfeControl(functions=rfFuncs, method="cv", number=10)
# set.seed(1)
# results <- rfe(PimaIndiansDiabetes[,1:8], PimaIndiansDiabetes[,9], sizes=c(1:8), 
# rfeControl=control, metric="ROC")
# 
# The next two lines identical...
results
print(results)
# Recursive feature selection
#
# Outer resampling method: Cross-Validated (10 fold)
#
# Resampling performance over subset size:
#
# Variables    ROC  Sens   Spec   ROCSD  SensSD  SpecSD Selected
#          1 0.7250 0.870 0.4071 0.07300 0.07134 0.10322         
#          2 0.7842 0.840 0.5677 0.04690 0.04989 0.05177         
#          3 0.8004 0.824 0.5789 0.02823 0.04695 0.10456         
#          4 0.8139 0.842 0.6269 0.03210 0.03458 0.05727         
#          5 0.8164 0.844 0.5969 0.02850 0.02951 0.07288         
#          6 0.8263 0.836 0.6078 0.03310 0.03978 0.07959         
#          7 0.8314 0.844 0.5966 0.03075 0.04502 0.07232         
#          8 0.8316 0.860 0.6081 0.02359 0.04522 0.07316        *
#
# The top 5 variables (out of 8):
#    glucose, mass, age, pregnant, pedigree

嗯，这给出了 5 个变量，但你说你想要 4 个。我们可以很快地深入到源代码中，探索它是如何计算并返回这 5 个变量作为前 5 个变量的。

print(caret:::print.rfe)
#
# Only a snippet code shown below...
#    cat("The top ", min(top, x$bestSubset), " variables (out of ", 
#        x$bestSubset, "):\n   ", paste(x$optVariables[1:min(top, 
#            x$bestSubset)], collapse = ", "), "\n\n", sep = "")

所以，基本上它是直接从results$optVariables。那里的人口如何增加？

# print(caret:::rfe.default)
#
# Snippet 1 of code...
#    bestVar <- rfeControl$functions$selectVar(selectedVars, 
    bestSubset)
#
# Snippet 2 of code...
#        bestSubset = bestSubset, fit = fit, optVariables = bestVar,

Ok, optVariables正在被填充rfeControl$functions$selectVar.

print(rfeControl)
#
# Snippet of code...
# list(functions = if (is.null(functions)) caretFuncs else functions,

从上面我们可以看出caretFuncs$selectVar正在使用...

详细信息：正在填充的源代码optVariables

print(caretFuncs$selectVar)
# function (y, size)
# {
#    finalImp <- ddply(y[, c("Overall", "var")], .(var), function(x) mean(x$Overall, 
#        na.rm = TRUE))
#    names(finalImp)[2] <- "Overall"
#    finalImp <- finalImp[order(finalImp$Overall, decreasing = TRUE), 
#        ]
#    as.character(finalImp$var[1:size])
# }

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

从插入符递归特征消除 (rfe) 结果中检索选定的变量的相关文章

在 R 中进行 Cox 回归后，将预测危险比列添加到数据帧中

在 R 中运行 Cox PH 回归后我需要在数据框中添加预测风险比的列数据框是面板数据其中 numgvkey 如果公司标识符和年龄是时间标识符您可以从此链接下载一小部分日期 https drive google com file
指定 R 中 hist() 中的 bin 数量？

我尝试指定垃圾箱的数量hist R为10 如下 gt hist x breaks 10 但垃圾箱的数量并不完全是 10 我尝试了几个其他数量的垃圾箱结果发生了同样的情况 hist says breaks可以指定给出直方图单元格数量的单个
如何生成向量的所有组合[重复]

这个问题在这里已经有答案了假设我有 3 个绿球 2 个橙球和 8 个黄球我想订购它们鉴于所有相同颜色的球都是相同的如何生成所有可能的序列在 R 中使用gregmisc 我可以 balls lt c orange orange g
如何使用 r 中的 caret 包在最佳调整超参数的 10 倍交叉验证中获得每次折叠的预测？

我试图使用 R 中的插入符包使用 10 倍交叉验证和 3 次重复来运行 SVM 模型我想使用最佳调整的超参数获得每次折叠的预测结果我正在使用以下代码 Load packages library mlbench library caret
R从列表中提取数据框，列名中没有前缀

我在列表中放置了一个数据框然后当尝试将其提取回来时我得到了该数据帧的所有以列表键为前缀的列名称有没有办法完全按照最初传递的方式提取数据帧 cols lt c column1 Column2 Column3 df1 lt data f
R read_excel：libxls 错误：无法解析文件

我试图使用 readxl read excel 将 xls 文件读入 R 但它给出了以下错误 Error filepath data xls libxls error Unable to parse file 还尝试了 readxl exc
dplyr 中的 Summarize 是否可以不删除数据框中的其他列？

我有一个包含三列的数据框我正在尝试进行简单的总结以查找数据框中每个城市的最高温度但同时保留每个最高温度列出的日期这是数据框我们称之为 maxT new ID Date Max TemperatureF 1 TUS 1960 04 0
R-了解 akima::interp 结果中的 NA 值

我有以下数据框 ref dat k Intensity Slope 1 0 021467214 33 16 2 0 012444759 33 8 3 0 006079156 33 4 4 0 003792025 33 2 5 0 02276
在函数内部调用 clusterApply 时，性能会下降

我遇到了一个奇怪的问题clusterApply 我已经能够尽可能地隔离它如下所示首先我从全局环境运行以下代码 require parallel cl lt makeCluster rep localhost 20 SOCK xl lt
dplyr，do()，从模型中提取参数而不丢失分组变量

R 帮助中关于 do 的示例略有不同 by cyl lt group by mtcars cyl models lt by cyl gt do mod lm mpg disp data coefficients lt models gt d
错误：“rjags”的包或命名空间加载失败

在终端的 conda 环境之一中我能够成功安装包 rjags 但是当我在该环境中运行 R 并运行库 rjags 时出现以下错误加载所需的包 coda 错误 rjags 的包或命名空间加载失败 rjags 的 loadNamespac
从 R 环境中删除对象

我正在阅读 Hadley 的 Advanced R 在第 8 章中他说我们可以使用以下方法从环境中删除对象 rm 但是移除该物体后我仍然可以看到该物体这是我的代码 e lt new env e a lt 1 e b lt 2 e a
R.matlab/readMat：readTag(this) 中出错

我正在尝试使用 R matlab 将 matlab 文件读入 R 但遇到此错误 require R matlab r lt readMat file mat verbose T Trying to read MAT v5 file stre
从 R 中的 HTTPS 连接逐行读取

当创建连接时open r 它允许逐行读取这对于批量处理大数据流非常有用例如这个脚本 https gist github com jeroenooms d33a24958d99bb969ac0通过一次读取 100 行来解析相当大的 gzi
R 编程：如何计算数据框中两个单元格之间的差异并将它们保存在新列中

尝试学习 R 并陷入自相关示例中我想将 x 的差异与 y 的差异进行回归我在数据框中有 x 和 y 并且希望将 x2 x1 的差值保存在新列例如 dx 中我不知道该怎么做我拥有的 data1 x y 5 3 8 9 3 1 1 5
如何将此“for”循环转换为向量解

这个问题与将嵌入其他文本的长州名称转换为两个字母的州缩写 https stackoverflow com questions 25582518 convert long state names embedded with other te
有没有一种简单的方法来判断存储在一个列表中的许多数据帧是否包含相同的列？

我有一个包含许多数据框的列表 df1 lt data frame A 1 5 B 2 6 C LETTERS 1 5 df2 lt data frame A 1 5 B 2 6 C LETTERS 1 5 df3 lt data frame
在 R 中使用 Huggingface Transformer 模型

我正在尝试在 R 中使用不同的 Huggingface 模型这是通过 reticulate 导入 Transformer 包来实现的谢谢 https rpubs com eR ic transfoRmers https rpubs co
R 中的 Websocket

我设法在 R 中建立到 Mtgox websocket 的连接规格如下 url https socketio mtgox com mtgox Currency USD https socketio mtgox com mtgox Curr
GGPLOT2：如何在 ggplot() 脚本中绘制特定选择

这是一个名为的大型数据集的峰值P 其中有 10 个优惠 CS 有不同的商店 SHP 具有多个数值数据集列出了按周排序的它们 WK 2 tm 52 它创建一个大文件仅前 6 行出现峰值 WK MND CS SHP RevCY RevLY

随机推荐

latin-1 转 ascii

我有一个带有重音拉丁字符的 unicode 字符串例如 n unicode Wikip dia le projet d encyclop die utf 8 我想将其转换为普通的 ascii 即 Wikipedia le projet d
R 将列表列表转换为数据帧

我需要处理受密码保护的 Excel xlsx 工作簿中提供的数据出于法律原因我无法创建不受保护的 Excel 文件或 csv 文件等并从那里进行处理所有 Excel 导入包都无法处理受密码保护的工作簿从这个答案将受密码保护的 xls
双型比较器

我编写了以下代码 public class NewClass2 implements Comparator
如何在android项目中安装openssl.so和libssl.so？

我目前面临 openssl 的构建问题我首先建造了libssl so and libcrypto so与 ndk build 守护者项目共享库第二步我通过执行以下操作将库与我的 Android 项目集成如本中所述topic http
在 javascript 中模拟打字的外观，而不是实际的按键

我正在尝试编写一个简单的函数让它看起来好像有人正在输入textarea 这是我的函数如果它很糟糕请原谅我但我通常不使用 javascript 这console log 部分工作正常但由于某种原因我无法让这个脚本按照我期望的方式更新
转义并在邮件客户端中显示（mailto 链接）

我有一个像这样的 JavaScript 函数 var strBody encodeURI window location href var strSubject encodeURI document title var mailto lin
使用 str.format() 访问对象属性

我有一个带有属性的 Python 对象a b c 我仍然使用旧的字符串格式所以我通常会手动打印这些 print My object has strings a s b s c s obj a obj b obj c 最近我的字符串变得超
PySpark 中的 PCA 分析

看着http spark apache org docs latest mllib Dimensionality reduction html http spark apache org docs latest mllib dimensio
致命：用户“root”postgresql 的密码身份验证失败

我使用 PostgreSQL 和 Django Heroku 格式并出现错误致命用户 root 的密码身份验证失败 Traceback most recent call last File manage py line 10 in
Java中的多点三边测量算法

我正在尝试在我的 Android 应用程序中实现三边测量算法来确定用户的室内位置我正在使用超宽带信标来获取到固定点的距离我能够采用中建议的方法三边测量法 Android Java https stackoverflow com ques
一元+运算符有什么实际用途吗？

是一元吗运算符仅包含一元对称性运算符还是它在 C 代码中找到了一些实际用途在这里搜索我发现了C 中一元运算符的用途是什么 https stackoverflow com questions 6637005 what is the
Eclipse 生成 getter 和 setter 并自动应用它们

在我的 Java 代码中我直接访问了一些成员变量现在我想重构并使用 getter 和 setter 如何使 Eclipse 自动将所有直接分配替换为 setter 并将每次访问替换为 getter 右键单击 gt 源 gt 生成 Get
从

从插入符递归特征消除 (rfe) 结果中检索选定的变量

r

rcaret

featureselection

rfe

从插入符递归特征消除 (rfe) 结果中检索选定的变量的相关文章

在 R 中进行 Cox 回归后，将预测危险比列添加到数据帧中

指定 R 中 hist() 中的 bin 数量？

如何生成向量的所有组合[重复]

如何使用 r 中的 caret 包在最佳调整超参数的 10 倍交叉验证中获得每次折叠的预测？

R从列表中提取数据框，列名中没有前缀

R read_excel：libxls 错误：无法解析文件

dplyr 中的 Summarize 是否可以不删除数据框中的其他列？

R-了解 akima::interp 结果中的 NA 值

在函数内部调用 clusterApply 时，性能会下降

dplyr，do()，从模型中提取参数而不丢失分组变量

错误：“rjags”的包或命名空间加载失败

从 R 环境中删除对象

R.matlab/readMat：readTag(this) 中出错

从 R 中的 HTTPS 连接逐行读取

R 编程：如何计算数据框中两个单元格之间的差异并将它们保存在新列中

如何将此“for”循环转换为向量解

有没有一种简单的方法来判断存储在一个列表中的许多数据帧是否包含相同的列？

在 R 中使用 Huggingface Transformer 模型

R 中的 Websocket

GGPLOT2：如何在 ggplot() 脚本中绘制特定选择

随机推荐

latin-1 转 ascii

R 将列表列表转换为数据帧

双型比较器

如何在android项目中安装openssl.so和libssl.so？

在 javascript 中模拟打字的外观，而不是实际的按键

转义并在邮件客户端中显示（mailto 链接）

使用 str.format() 访问对象属性

PySpark 中的 PCA 分析

致命：用户“root”postgresql 的密码身份验证失败

Java中的多点三边测量算法

一元+运算符有什么实际用途吗？

Eclipse 生成 getter 和 setter 并自动应用它们

从

从插入符递归特征消除 (rfe) 结果中检索选定的变量

从插入符递归特征消除 (rfe) 结果中检索选定的变量 的相关文章

随机推荐

从插入符递归特征消除 (rfe) 结果中检索选定的变量的相关文章