使用 mlr3-pipelines 在 GraphLearner 中估算数据和编码因子列？

2024-02-21

我有一些关于 mlr3-pipelines 的使用问题。事实上，我的目标是创建一个结合三个 3 图的管道：

1 - 处理分类变量的图表：水平插补 => 标准化

imp_cat     = po("imputenewlvl", param_vals =list(affect_columns = selector_name(my_cat_variables)))
encode      = po("encode",     param_vals =list(affect_columns = selector_name(my_cat_variables)))
cat = imp_cat %>>% encode

2 - 处理数值变量子集的图表：平均插补 => 标准化

imp_mean = po("imputemean", param_vals = list(affect_columns =selector_name(my_first_set_of_numeric_variables)))
scale = po("scale", param_vals = list(affect_columns = selector_name(my_first_set_of_numeric_variables)))
num_mean = imp_mean %>>% scale

第三张图用于处理数值变量的另一个子集：中值插补 => 最小最大缩放

imp_median = po("imputemedian", param_vals = list(affect_columns =selector_name(my_second_set_of_numeric_variables)))
min_max = po("scalerange", param_vals = list(affect_columns = selector_name(my_second_set_of_numeric_variables)))
num_median = imp_median %>>% min_max

将这些图组合起来特征Union Ops :

graph = po("copy", 3) %>>%
   gunion(list(cat, num_mean, num_median )) %>>%
   po("featureunion")

最后在 GraphLearner 中添加学习者：

g1 = GraphLearner$new(graph %>>% po(lrn("classif.ranger")))

我的数据中有一些缺失值，因此在每个图中使用计算机，并且我有一个二进制分类任务。

my_task = TaskClassif$new(id="classif", backend = data, target = "my_target")

理论上，当我开始学习时，我不应该出现缺失值错误。

g1$train(my_task)

但根据我选择的学习者，我有几个错误。如果我使用例如游侠作为学习者：我有这个错误

Error: Missing data in columns: ....

如果我使用 svm、glmnet 或 xgvoost：由于分类变量的存在，我遇到了问题。Error : has the following unsupported feature types: factor...

对于我的管道，我不应该有分类变量，也不应该有缺失值。所以我不知道如何克服这个问题。

1 - 我在每个图中都使用了输入器，为什么有些算法告诉我总是缺少值？

2 - 编码后如何删除分类变量？有些算法不支持这种类型的变量

Updated

我认为在管道期间所做的所有修改都不会保留。换句话说，算法（svm、ranger...）在原始任务上进行训练，而不是在管道更新的任务上进行训练

回答第一个问题

我将尝试解释为什么您的工作流程中总是缺少值。

让我们加载一堆包

library(mlr3) 
library(mlr3pipelines)
library(mlr3learners)
library(mlr3tuning)
library(paradox)

让我们执行有缺失值的任务 pima

task <- tsk("pima")
task$missings()
diabetes      age  glucose  insulin     mass pedigree pregnant pressure  triceps 
       0        0        5      374       11        0        0       35      227

由于没有分类列，我将把三头肌转换为一：

hb <- po("histbin",
         param_vals =list(affect_columns = selector_name("triceps")))

现在估算新级别并编码：

imp_cat <- po("imputenewlvl",
              param_vals =list(affect_columns = selector_name("triceps")))
encode <- po("encode",
             param_vals = list( affect_columns = selector_name("triceps")))

cat <- hb %>>% 
  imp_cat %>>%
  encode

当你使用cat on the task:

cat$train(task)[[1]]$data()
#big output

不仅会返回您选择要转换的列，还会返回所有其他列

这也发生在num_median and num_mean.

让我们创建它们

imp_mean <- po("imputemean", param_vals = list(affect_columns = selector_name(c("glucose", "mass"))))
scale <- po("scale", param_vals = list(affect_columns = selector_name(c("glucose", "mass"))))
num_mean <- imp_mean %>>% scale


imp_median <- po("imputemedian", param_vals = list(affect_columns = selector_name(c("insulin", "pressure"))))
min_max <- po("scalerange", param_vals = list(affect_columns = selector_name(c("insulin", "pressure"))))
num_median <- imp_median %>>% min_max

检查什么num_median does

num_median$train(task)[[1]]$data()
#output
     diabetes    insulin  pressure age glucose mass pedigree pregnant triceps
  1:      pos 0.13341346 0.4897959  50     148 33.6    0.627        6      35
  2:      neg 0.13341346 0.4285714  31      85 26.6    0.351        1      29
  3:      pos 0.13341346 0.4081633  32     183 23.3    0.672        8      NA
  4:      neg 0.09615385 0.4285714  21      89 28.1    0.167        1      23
  5:      pos 0.18509615 0.1632653  33     137 43.1    2.288        0      35
 ---                                                                         
764:      neg 0.19951923 0.5306122  63     101 32.9    0.171       10      48
765:      neg 0.13341346 0.4693878  27     122 36.8    0.340        2      27
766:      neg 0.11778846 0.4897959  30     121 26.2    0.245        5      23
767:      pos 0.13341346 0.3673469  47     126 30.1    0.349        1      NA
768:      neg 0.13341346 0.4693878  23      93 30.4    0.315        1      31

因此，它在“胰岛素”和“压力”列上执行了预期的操作，但也返回了其余部分不变。

通过复制数据三次并在每个步骤中应用这三个预处理器，您将返回转换后的列，但也会返回所有其余列 - 三次。

你应该做的是：

graph <- cat %>>%
  num_mean %>>%
  num_median

cat转换选定的列并返回所有列，然后num_mean转换选定的列并返回所有...

graph$train(task)[[1]]$data()

在我看来很好

更重要的是

g1 <- GraphLearner$new(graph %>>% po(lrn("classif.ranger")))
g1$train(task)

works

2 - 第二个问题的答案是使用选择器功能 https://rdrr.io/cran/mlr3pipelines/man/Selector.html，特别是在你的情况下

selector_type():

selector_invert(selector_type("factor"))

如果在输入学习器之前调用，应该可以解决问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

machinelearning

pipeline

mlr3

使用 mlr3-pipelines 在 GraphLearner 中估算数据和编码因子列？的相关文章

删除颜色的透明度但保留颜色本身

我想删除颜色的透明度但保留颜色本身例如我喜欢绿色的透明版本但我想要这种不透明的颜色 library scales show col green alpha green 0 3 gt nice green show col nice
R 中的自定义对比：对比系数矩阵或对比矩阵/编码方案？以及如何到达那里？

自定义对比在分析中应用非常广泛例如这个三水平因子的第 1 级和第 3 级的 DV 值是否有显着差异直观上这种对比用单元均值表示为 c 1 0 1 这些对比中的一个或多个以列的形式绑定形成对比系数矩阵例如 mat matrix
通过 knit 和 igraph 在乳胶中绘制 tkplot

这可能是一个疯狂的奇怪的梦我梦想着我可以放一个tkplot from igraph在乳胶文档中通过knitr 我知道一辉对动画很了解所以我想也许这是可能的谷歌搜索没有显示我想要什么所以这是一个无效的尝试 documentclass
输出到文件时光栅图的分辨率较差

我有一个相当高清晰度的全球地图栅格想要绘制到文件但似乎无法保持分辨率绘制受限区域效果很好但无论我使用什么方法整个世界总是以降低的分辨率告终我在这里错过了什么吗我以前经常输出高分辨率栅格而没有出现此问题但在这种情况下我无法确定
使用填充美学两次，具有两种不同的比例[重复]

这个问题在这里已经有答案了我正在尝试在一组多边形的顶部使用分组箱线图来绘制一个图并且希望使用填充美学来基于连续变量为多边形着色并且箱线图基于单独的分组变量我发现了几篇文章可以帮助我获得多边形上的箱线图并且找到了其他有相关问题的人
闪亮错误：参数暗示行数不同

我正在尝试开发一个简单的应用程序从 Kijiji 网站获取本地分类广告我用几乎相同的脚本制作了一个类似的应用程序但我没有收到下面描述的错误所以我不知道这个脚本出了什么问题我尝试了我能想到的一切但无法让它发挥作用的结构df数据框
如何替换异常值？

我有以下数据框 d lt data frame Open rnorm 10 5 1 如果我插入异常值 d Open 4 100 d Open 5 100 现在我想用正常值替换这些异常值我尝试用以前的值替换它但如果逐个出现异常值则它不起
在 r 中导出矩阵

我想在 R 中导出一个矩阵并保留行和列的名称当我使用 write table 或 write csv 时我得到一个带有新列的矩阵我该如何使用这个功能感谢您的帮助您不会获得新列行名称将保存为文本文件中的第一列因此您可以指定在
LaTex 中与 knit 和 xtable 交叉引用的问题

我目前正在与 R Studio 合作使用 LaTex 中的 R knitr 生成 PDF 文档在这些文档中我想在文本中引用的表格中展示我的部分结果我使用 R 中的 xtable 包生成这些表它运行良好并为我提供了正确的表到目前为
如何从 R 运行带有特定模块的 perl 脚本？

我可以从终端运行 perl 脚本 myperlscript pl 没有任何问题但是如果我尝试从 RStudio 中运行相同的 perl 脚本则会出现以下错误 command lt myperlscript pl outputfile
在 R 中创建一个运行计数变量？

我有一个足球比赛结果的数据集我希望通过创建一组类似于世界足球 Elo 公式的运行评级来学习 R 我遇到了麻烦在 Excel 中看似简单的事情在 R 中并不完全直观例如 4270 个观察中的前 15 个具有必要的变量 date t 1
重复测量引导统计数据，按多个因素分组

我有一个看起来像这样的数据框但显然还有更多行等 df lt data frame id c 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 cond c A A B B A A B B A A B B A A B B co
R foreach问题（某些进程返回NULL）

我遇到了问题foreach我正在 R 中使用的程序的一部分该程序用于运行不同参数的模拟然后将结果返回到单个列表然后用于生成报告当并非所有分配的模拟运行都在报告上实际可见时就会出现问题从各方面来看似乎只有分配的运行的一个子集实际
我无法下载 R 中的 reshape2 包 [关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我在尝试安装 R 包时收到此响应 gt installed packages reshape2 Package LibPath V
预处理 csv 文件以与 tflearn 一起使用

我的问题是关于在将 csv 文件输入神经网络之前对其进行预处理我想使用 python 3 中的 tflearn 为著名的 iris 数据集构建一个深度神经网络数据集 http archive ics uci edu ml machine
正则表达式字符串中第一个和最后一个非点的位置

我希望找到字符串的第一个和最后一个非点元素的位置理想情况下我想这样做regex在基地R 我已经写过R解决问题的代码不过我对一个感兴趣regex解决方案感谢您的任何建议这是一个示例数据集和R代码以获得所需的结果此代码拆分字符串并使
使用 purrr 迭代替换数据帧列中的字符串

我想用purrr使用以下命令在数据框列上迭代运行多个字符串替换gsub 功能这是示例数据框 df lt data frame Year 2019 Text c rep a aa 5 rep a bb 3 rep a cc 2 gt df
使用 pracma::findpeaks 识别持续峰值

我的语法有问题peakpat内的选项findpeaks内的函数pramcaR 包 v 2 1 1 我使用的是 R 3 4 3 x64 Windows 我希望该函数能够识别可能有两个重复值的峰值并且我相信该选项peakpat这就是我能做到的
如何使用 R 计算成为列表中中位数的概率？

假设我有以下数据集其中显示了假设实验的每个状态的三个观察结果的列表 state lt c Iowa Minnesota Illinois outcome lt list c 5 11 11 c 3 12 8 c 9 14 2 dat lt
选择 R 中的数据表中隐藏时（在绿色加号下方）列的显示顺序

Context 使用 DataTables 库制作交互式表格时当屏幕宽度对于列的数量和宽度来说太窄时列将隐藏在绿色号下我有一个非常宽的表格有 20 多列其中一些内容非常冗长因此某些列在所有屏幕宽度下总是隐藏的每次隐藏新列时

随机推荐

红宝石中的反射？

我很好奇这是如何运作的例如如果我创建一个基于工厂模式的类您可以在其中注册类以供以后使用然后执行类似的操作 FactoryClass register YourClassName param param FactoryClass
使用管道进行 awk 打印在 Jupyter Notebook 中无法使用 iPython

因此下面的命令不会在带有 iPython 的 Jupyter Notebook 中提供任何输出 IP 62 172 72 131 cat hits csv grep IP awk print 1 我尝试过双符号和单符号但都不起作用
Twitter Bootstrap 按钮在 Firefox 和 Chrome 中奇怪地改变渲染

我有一个问题我试图用我自己的颜色覆盖 twitter bootstrap v 2 0 3 主按钮并且它在 IE 中工作正常但在 FireFox 或 Chrome 中不起作用因此在我的页面上我首先链接到 bootstrap css
如何将字节数组转换为字符串[重复]

这个问题在这里已经有答案了我创建了一个包含两个字符串的字节数组如何将字节数组转换为字符串 var binWriter new BinaryWriter new MemoryStream binWriter Write value1 bi
快速展开的解决方法

那么针对这个问题的回答是 Xcode 6 Storyboard Unwind Segue 与 Swift 未连接退出 https stackoverflow com questions 24029586 xcode 6 storyboard
查找 3D 坐标是否已被使用的最快方法

使用 C 和 Qt 我需要处理大量 3D 坐标具体来说当我收到 3D 坐标由 3 个双精度数组成时我需要检查列表是否已处理该坐标如果没有那么我处理它并将其添加到列表或容器中坐标量可能会变得非常大因此我需要将处理后的坐标
在路由定义中间使用贪婪路由参数

我正在尝试创建遵循树导航系统结构的路线即我想将树中的整个路径包含在我的路线中所以如果我有一棵像这样的树 Computers Software 发展 Graphics Hardware CPU 显卡然后我希望能够有这样的路线 site
在 Spring MVC 控制器中注入 Jaxb2Marshaller

我正在尝试将静态 xml 转换为控制器类中的 POJO 解组我正在使用 Jaxb2Marshaller 并在我的中按以下方式进行配置根上下文
FactoryGirl 覆盖关联对象的属性

这可能很简单但我在任何地方都找不到例子我有两个工厂 FactoryGirl define do factory profile do user title director bio I am very good at things li
可以覆盖位于 jar 依赖项中的 persistence.xml 中的属性

我有一个 java ee Web 应用程序它使用打包为 jar 依赖项实体类 EJB 存储库 persistence xml 的持久性单元为了让 Web 应用程序运行一些验收测试我需要覆盖打包的 persistence xml 中的
如何将 3 位毫秒的因子转换为 R 中的日期时间？

我这样对 t 对象进行计时 t lt c 2016 10 19 00 00 00 000 我需要转换为 POSIXct 如下所示 as POSIXct t format Y m d H M OS 2016 10 19 EDT 我失去了小时
使用字典查找更新 pandas 列

有一个数据框 df import pandas as pd import numpy as np i dog cat rabbit elephant 3 df pd DataFrame np random randn 12 2 index
如何在 SQL Server 中导入 DBF 文件

如何在 SQL Server 中导入 FoxPro DBF 文件使用链接服务器或使用 openrowset 例如 SELECT into SomeTable FROM OPENROWSET MSDASQL Driver Microsoft
协程和 while 循环

我一直在研究沿着从 Navmesh Unity3d 获得的路径的对象移动我正在使用协程其中我用 while 循环控制它正如我所展示的 public void DrawPath NavMeshPath pathParameter Gam
Stripe - 定期付款中包含的附加发票项目

我在订阅中添加发票项目时遇到问题目前我的头撞在墙上我已经在 stripe 上创建了一个发票项目并且我希望将发票项目包含在定期付款中这是我的代码它在第一张发票上添加发票项目但不在下一张发票上添加发票项目 new customer
如何自定义表单身份验证 cookie 名称？

我有 2 个网站在不同端口的本地主机上运行由于浏览器在发送 cookie 时不区分端口号因此我的表单身份验证票证从一个站点发送到另一个站点我该如何解决这个问题我认为一个好的解决方案是更改表单身份验证票或其中一个网站但我不知道如何执
如何在浏览器刷新后保持 React 组件状态

感谢您阅读我的第一个问题我尝试使用react react router 和 firebase 来使用共享根进行身份验证所以我想保留App js的用户状态但是当我尝试刷新浏览器时找不到用户状态我尝试保存到本地存储但是有没有办法在
使用 ASP.NET AJAX 和更新面板时如何处理视图状态的想法

这是我编写的一个类用于解决我在视图状态方面遇到的一些问题它将信息存储在用户会话中并增加一个值来跟踪要显示的状态困难在于不支持后退按钮我最初这样做的原因是在 AJAX 出现之前视图状态被发送到客户端而不是存储在服务器上我认为通过
optgroup 标签并选择不重复的选项组[重复]

这个问题在这里已经有答案了按类别对项目进行分组是可行的但它不会将该类别的所有产品放在一个中optgroup但重复它所有项目应位于一组中而不是作为重复组分开
使用 mlr3-pipelines 在 GraphLearner 中估算数据和编码因子列？

我有一些关于 mlr3 pipelines 的使用问题事实上我的目标是创建一个结合三个 3 图的管道 1 处理分类变量的图表水平插补 gt 标准化 imp cat po imputenewlvl param vals list aff

使用 mlr3-pipelines 在 GraphLearner 中估算数据和编码因子列？

使用 mlr3-pipelines 在 GraphLearner 中估算数据和编码因子列？ 的相关文章

随机推荐

热门标签

使用 mlr3-pipelines 在 GraphLearner 中估算数据和编码因子列？的相关文章