如何在 R 中对多个分类变量进行一次热编码

2023-11-21

我正在研究一个预测问题，并且正在 R 中构建一棵决策树，我有几个分类变量，我想在我的训练和测试集中对它们进行一致的单热编码。我设法在我的训练数据上做到了这一点：

temps <- X_train
tt <- subset(temps, select = -output)
oh <- data.frame(model.matrix(~ . -1, tt), CLASS = temps$output)

但我找不到在我的测试集上应用相同编码的方法，我该怎么做？

我建议使用 caret 包中的 dummyVars 函数：

customers <- data.frame(
  id=c(10, 20, 30, 40, 50),
  gender=c('male', 'female', 'female', 'male', 'female'),
  mood=c('happy', 'sad', 'happy', 'sad','happy'),
  outcome=c(1, 1, 0, 0, 0))
customers
id gender  mood outcome
1 10   male happy       1
2 20 female   sad       1
3 30 female happy       0
4 40   male   sad       0
5 50 female happy       0


# dummify the data
dmy <- dummyVars(" ~ .", data = customers)
trsf <- data.frame(predict(dmy, newdata = customers))
trsf
id gender.female gender.male mood.happy mood.sad outcome
1 10             0           1          1        0       1
2 20             1           0          0        1       1
3 30             1           0          1        0       0
4 40             0           1          0        1       0
5 50             1           0          1        0       0

example source

您可以对训练集和验证集应用相同的过程。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

onehotencoding

如何在 R 中对多个分类变量进行一次热编码的相关文章

在shiny中过滤传单地图数据

我在用传单地图设置这个闪亮的东西时遇到了麻烦我的原帖 https stackoverflow com questions 50111566 applying leaflet map bounds to filter data within
R foreach问题（某些进程返回NULL）

我遇到了问题foreach我正在 R 中使用的程序的一部分该程序用于运行不同参数的模拟然后将结果返回到单个列表然后用于生成报告当并非所有分配的模拟运行都在报告上实际可见时就会出现问题从各方面来看似乎只有分配的运行的一个子集实际
在 R 中向散点图添加线条

如何向图表添加线条我做了以下 dat lt data frame xvar 1 20 rnorm 20 sd 10 yvar 1 20 rnorm 20 sd 10 zvar 1 20 rnorm 20 sd 10 plot dat 1
选择 R 中的数据表中隐藏时（在绿色加号下方）列的显示顺序

Context 使用 DataTables 库制作交互式表格时当屏幕宽度对于列的数量和宽度来说太窄时列将隐藏在绿色号下我有一个非常宽的表格有 20 多列其中一些内容非常冗长因此某些列在所有屏幕宽度下总是隐藏的每次隐藏新列时
pyomo + 网状错误 6 句柄无效

我正在尝试运行pyomo优化我收到错误消息 Error 6 The handle is invalid 不知道如何解释它环顾四周似乎与特权有关但我不太明白在下面找到完整的错误跟踪以及重现它的玩具示例完整的错误跟踪 py run f
为什么 dplyr filter() 不能在函数内工作（即使用变量作为列名）？

使用 dplyr 函数对数据进行过滤分组和变异的函数基本管道序列在函数之外工作得很好这就是我使用真实列名称的地方将其放入一个函数中其中列名称是一个变量并且某些函数可以工作但有些函数则不能尤其是 dplyr filter 例如
朴素贝叶斯分类器仅基于先验概率做出决策

我试图根据推文的情绪将推文分为三类买入持有卖出我正在使用 R 和包 e1071 我有两个数据框一个训练集和一组需要预测情绪的新推文训练集数据框 text sentiment this stock is a good buy Bu
使用 Shiny 发布平行坐标图表时出现“错误：路径[1]="”：没有这样的文件或目录”

我有一个似乎很常见但我还没有找到解决方案的问题当尝试使用 rCharts Parcoords 发布 Web 应用程序时出现以下错误错误路径 1 没有这样的文件或目录奇怪的是该应用程序在我的笔记本电脑上运行得很好下面是我正在使用
相当于 min() 的 rowMeans()

我在 R 邮件列表上多次看到这个问题但仍然找不到满意的答案假设我有一个矩阵m m lt matrix rnorm 10000000 ncol 10 我可以通过以下方式获得每行的平均值 system time rowMeans m use
在 Rcpp 中使用其他包中的 C 函数

我试图从 C 函数中的 cubature 包调用 C 例程来执行多维积分我试图重现的基本 R 示例是 library cubature integrand lt function x sin x adaptIntegrate integr
为什么 R 更新后 sim_slopes() 中会出现此错误？

我正在尝试使用交互包来创建简单斜率的约翰逊尼曼图但是当尝试运行 sim slopes 函数时出现以下错误直到我将R更新到4 2 2 我才没有遇到这个问题我使用的是 macOS Ventura 13 1 Error class
如何从 R 读取 PDF 元数据

我们很好奇有没有一种方法可以从 R 读取 PDF 元数据例如下面显示的信息通过搜索我对此无能为力 r pdf metadata在当前的问题库中非常欢迎任何指点我想不出纯 R 的方法来执行此操作但您可能可以安装您最喜欢的 PDF
如何使用 SparkR 1.6.0 写入 JDBC 源？

使用 SparkR 1 6 0 我可以使用以下代码从 JDBC 源读取数据 jdbc url lt jdbc mysql localhost 3306 dashboard user
实三次多项式的最快数值解？

R 问题寻找最快的方法来数值求解一堆已知具有实系数和三个实根的任意三次方程据报道 R 中的 polyroot 函数对复杂多项式使用 Jenkins Traub 算法 419 但对于实多项式作者参考了他们早期的工作对于实三次或更一般的
如何绘制具有显着性水平的箱线图？

前段时间问了一个关于绘制箱线图的问题Link1 https stackoverflow com questions 14604439 plot multiple boxplot in one graph 我有一些包含 3 个不同组或标签
无法更改 RStudio 中的 R 版本

我的 RStudio V 0 99 491 无法更改 R 版本我以平常的方式行事Global Options gt R Version 然后它挂起并且不再工作或反应 R 运行良好的初始版本是R 3 1 0 我以前从未遇到过这样的问题也许
如何修复 R 中 Kaplan Meier 图的风险表计算错误

以下是一个数据帧其中 6 个参与者中的每一个都有唯一的 record ID 我想绘制一个生存分析图其中包含感兴趣事件的复发以及在时间间隔 tstart 到 tstop 内暴露药物剂量数值变量的时间依赖性协变量每个参与者的最大
在 ifelse() 语句内部和外部运行一行时的不同输出

我正在尝试运行一个简单的命令但不知道为什么在内部和外部运行它时输出不同ifelse 功能函数条件评估为FALSE 所以输出应该完全相同但是单独运行时输出为0 0 1 1 0 1 0 1 NA 根据需要但是从ifelse 函数输
在 Shiny 中的用户会话之间共享反应数据集

我有一个相当大的反应数据集该数据集是通过轮询文件然后按预定义的时间间隔读取该文件而派生的数据更新频繁需要不断重新加载诚然重新加载可以增量完成并附加到 R 中的现有对象但事实并非如此然而目前尽管会话中的数据相同但此操作是针对
如何使用 dplyr 独立过滤每列的行

我有以下内容 library tidyverse df lt tibble tribble gene colB colC a 1 2 b 2 3 c 3 4 d 1 1 df gt A tibble 4 x 3 gt gene colB c

随机推荐

访问 SimpleXMLElement 对象的某些属性

When I print r 变量引用的 SimpleXMLElement 对象 xmlObject 我看到以下结构 SimpleXMLElement Object attributes gt Array uri gt example re
golang 区分 T 和 *T 上的方法集的原因是什么？

这是我学习go过程中最困惑的地方我们都知道方法T只影响副本T 以及方法 T会影响实际数据T 为什么方法上T也可以使用 T 但不允许相反的情况那么你能给我一个例子或原因说明为什么他们不允许方法 T被使用T 这种设计的优点和缺点是什么
x86_64 汇编器中 RBP 寄存器的用途是什么？

我正在尝试学习一点汇编因为我需要它来参加计算机体系结构课程我写了一些程序比如打印斐波那契数列我认识到每当我编写一个函数时我都会使用这三行正如我通过比较由gcc to its C相等的 pushq rbp movq rsp rb
将字符串与枚举匹配？

我正在使用第 3 方 DLL 它需要在方法签名中包含名为 DaysOfWeek 的枚举我允许我的用户从组合框中选择星期几但我最终得到一个字符串如何将我的字符串与适当的枚举属性相匹配 Thanks Enum Parse typeof D
Swift：找不到“|”的重载接受提供的参数

尝试将 Parse 合并到新的 Swift 项目中当我到达这个街区时 logInViewController fields PFLogInFieldsUsernameAndPassword PFLogInFieldsLogInButton
使用 jquery，如何检查输入元素的集合是否具有唯一值？

我有一张桌子有些行是由 jquery 动态添加的首先 td 每行都有一个 td
Jenkins 多分支管道并指定上游项目

目前我们使用 Jenkins 作业 DSL 在每个 Git 分支上生成大量 Jenkins 作业多分支管道插件看起来是一种有趣的方式可以使用 Jenkinsfiles 获得一流的作业生成支持并减少我们维护的作业 DSL 的数量例如
来自谷歌电子表格的 JSON 数据

我经历了这把小提琴其中有一个包含 json 数据的三个下拉列表的示例我有一个谷歌示例电子表格在这里现在是否可以将此电子表格数据呈现为 fiddle 中给出的 json 格式的示例我知道我们可以将电子表格转换为 json 如下所示 va
IQueryable 和 IEnumerable 有什么区别[重复]

这个问题在这里已经有答案了我对其中的区别感到困惑作为 Net 的新手我知道我可以查询IEnumerables使用 Linq 扩展那么这是什么IQueryable有何不同也可以看看IQueryable T 和 IEnumerable
如何将 Typescript 函数的泛型参数类型限制为枚举

是否可以将通用 Typescript 函数的输入参数类型限制为 Typescript 枚举换句话说我想强制下面函数中的 T 是一个非常量的 Typescript 枚举Foo
在 AWSEB 命令行上部署 django 应用程序时如何修复 502 Bad Gateway NGINX 错误？

我一直在尝试部署 Django 应用程序awsebcli 我立即进入eb打开命令我得到502 错误网关 NGINX我的网络浏览器返回错误请我需要有关如何修复此错误的帮助以便更好地查看和理解我的代码屏幕截图位于上传链接中如下所示 set
构造函数与 typeof 检测 JavaScript 中的类型

In 这个问题我没有看到使用构造函数的建议所以而不是typeof callback function 我会用callback callback constructor Function 对我来说很明显在运行时性能和编码安全性方面与内
函数模板重载解析、相关参数和非相关参数

鉴于以下程序 include
Anaconda：导航器启动时发生意外错误

我已经安装了 Anaconda 我已经成功启动它然后使用 R 或 python 今天我无法再启动它并收到此错误当我在管理员模式下运行该软件时我收到相同的错误 An unexpected error ocurred on Navigat
静态（词法）作用域与动态作用域（伪代码）

Program A x y z integer procedure B y integer y 0 x z 1 z y 2 procedure C z integer procedure D x integer x z 1 y x 1 ca
想要在 TortoiseHG/Mercurial 中为我的 .hgignore 文件创建一些默认值

我希望每次创建新存储库时默认情况下某些过滤器都会自动添加到我的 hgignore 文件中例如对于 C 项目我希望添加以下内容 glob bin glob obj 这可能吗如何如果无法自动化将 hgignore 文件从一个存储库
使用 MinGW 编译的 Node js (node-api) 插件导致访问冲突

构建 node api 链接的本机插件经过3天的调查和研究我对问题的原因已经一无所知基本上我正在加载一个用 MinGW64 编译并链接到 C node api 的 hello world Node JS 插件代码如下 hello c
如何在ubuntu中彻底卸载python并重新安装？

ubuntu 中默认的 python 版本是 2 7 12 我使用以下命令安装了 python2 7 13 然后使用以下命令下载 version 2 7 13 cd Downloads wget https www python org f
有没有好的 PHP MySQL 兼容的报告框架？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南目前不接受答案我正在寻找一个基于 Web 的报告框架该框架基于 PHP 并与 MySQL 一起使用这是我的问题除了懒得自己编程之外我有一个大 50k 行
如何在 R 中对多个分类变量进行一次热编码

我正在研究一个预测问题并且正在 R 中构建一棵决策树我有几个分类变量我想在我的训练和测试集中对它们进行一致的单热编码我设法在我的训练数据上做到了这一点 temps lt X train tt lt subset temps sele

如何在 R 中对多个分类变量进行一次热编码

如何在 R 中对多个分类变量进行一次热编码 的相关文章

随机推荐

热门标签

如何在 R 中对多个分类变量进行一次热编码的相关文章