使用 model.matrix 进行 One-hot 编码

2023-12-14

model.matrix 中有一些我不明白的东西。当我输入一个没有截距的二进制变量时，它返回两个级别。

> temp.data <- data.frame('x' = sample(c('A', 'B'), 1000, replace = TRUE))
> temp.data.table <- model.matrix( ~ 0 + x, data = temp.data)
> head(temp.data.table)
  xA xB
1  1  0
2  0  1
3  0  1
4  0  1
5  1  0
6  0  1

但是，当我输入另一个二进制级别时，它仅创建 3 列。这是为什么？是什么让函数的行为突然不同？我怎样才能避免它？

> temp.data <- data.frame('x' = sample(c('A', 'B'), 1000, replace = TRUE),
+                         'y' = sample(c('J', 'D'), 1000, replace = TRUE))
> temp.data.table <- model.matrix( ~ 0 + x + y, data = temp.data)
> head(temp.data.table)
  xA xB yJ
1  0  1  0
2  0  1  1
3  0  1  1
4  0  1  0
5  1  0  1
6  0  1  0

您需要与factors并设置contrasts to FALSE。尝试这个：

n <- 10
temp.data <- data.frame('x'=sample(c('A', 'B'), n, replace=TRUE),
                        'y'=factor(sample(c('J', 'D'), n, replace=TRUE)))
model.matrix( ~ 0 + x + y, data=temp.data,
              contrasts=list(y=contrasts(temp.data$y, contrasts=FALSE)))

#    xA xB yD yJ
# 1   0  1  1  0
# 2   1  0  0  1
# 3   0  1  1  0
# 4   1  0  0  1
# 5   0  1  0  1
# 6   1  0  1  0
# 7   1  0  1  0
# 8   0  1  1  0
# 9   0  1  0  1
# 10  0  1  1  0
# attr(,"assign")
# [1] 1 1 2 2
# attr(,"contrasts")
# attr(,"contrasts")$x
# [1] "contr.treatment"
# 
# attr(,"contrasts")$y
#   D J
# D 1 0
# J 0 1

要了解为什么会发生这种情况，请尝试：

contrasts(temp.data$y)
#   J
# D 0
# J 1

contrasts(temp.data$y, contrasts=F)
#   D J
# D 1 0
# J 0 1

和你的x变量这通过设置自动发生0 +删除拦截。（实际上x也应该编码为factor).

原因是，在线性回归中，因子变量的水平通常与参考水平进行比较（您可以使用relevel）。在您的模型矩阵中，0 +您删除第一个变量的截距，但不删除以下变量（尝试model.matrix( ~ 0 + y + x, data=temp.data)你只得到一个x but to y）。这是标准中确定的contrasts默认情况下使用处理对比设置。

您可能想阅读相关帖子罗丝·梅尔 (2015)详细解释这一点：

R 中的对比

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

onehotencoding

使用 model.matrix 进行 One-hot 编码的相关文章

简单的数据框重塑

我刚刚从长时间的写作中断中回到 R 并且在记住如何重塑数据方面遇到了一些实际问题我知道我想做的事情很容易但出于某种原因我今晚很愚蠢并且将自己与融化和重塑混淆了如果有人能快速指出我正确的方向我将不胜感激我有一个这样的数据框 pe
在 Shiny 中设置一个绘图缩放以匹配另一个绘图缩放

我正在尝试使用情节重排获取一个图的 x 轴缩放限制并将它们应用到 Shiny 中的另一个图到目前为止我可以从 plot1 x轴限制获取相关的plotly relayout数据将其转换从数字到日期并在绘制 plot2 之前将其提
如果“testthat”测试在“R”中失败，则打印自定义诊断信息

I use a testthat单元测试来检查是否data frame函数返回的结果与我期望它返回的结果相同如果测试失败 testthat打印一些诊断信息例如 MyFunction df orig is not identical to
从网络源获取 R 中的数据作为数据框

我正在尝试使用 RCurl 包将一些空气污染背景数据作为 data frame 直接加载到 R 中该网站有 3 个下拉框用于在下载 csv 文件之前选择选项如下图所示我试图从下拉框中选择 3 个值并使用下载 CSV 按钮将数据作
如何生成向量的所有组合[重复]

这个问题在这里已经有答案了假设我有 3 个绿球 2 个橙球和 8 个黄球我想订购它们鉴于所有相同颜色的球都是相同的如何生成所有可能的序列在 R 中使用gregmisc 我可以 balls lt c orange orange g
在 mac (iMac OSX ) 终端中远程运行脚本（r 脚本）到其他计算机

我有一个小示例脚本 script p r 如下所示打算在终端中运行 usr bin Rscript sink output capture txt mn lt mean 1 10 and so on much longer list of
如何使用 PyTorch 沿特定维度进行热编码？

我有一个大小的张量 3 15 136 where 3 is batch size 15 sequence length and 136 is tokens 我想使用中的概率来单热我的张量tokens维度 136 为此我想提取序列长度中每个
R-了解 akima::interp 结果中的 NA 值

我有以下数据框 ref dat k Intensity Slope 1 0 021467214 33 16 2 0 012444759 33 8 3 0 006079156 33 4 4 0 003792025 33 2 5 0 02276
使用 dplyr:group_by 将数据帧分成多个子集？

有没有办法根据 group by 组使用 dplyr 将一个数据帧拆分为数据帧的子集 mtcars gt group by cyl gear gt codes 非常感谢好吧并不是你真的想要但你可以这样做tidyr 即nearly一样的
如何在 R 中为传单中的数值变量设置不对称颜色渐变

我想让传单调色板以零为中心红白绿发散我已经尝试过中所说的这个帖子 https stackoverflow com questions 29262824 r center color palette on 0 当我尝试手动创建颜色时我得
R.matlab/readMat：readTag(this) 中出错

我正在尝试使用 R matlab 将 matlab 文件读入 R 但遇到此错误 require R matlab r lt readMat file mat verbose T Trying to read MAT v5 file stre
根据另一列中的键累积一列中的值时出现问题

我有一个看起来像这样的数据框我需要使用 PROJ ID 列中的字符串创建一个新的值列并形成 PROJ NAME 列中的值字符串这里提供的解决方案根据 r 中另一列的键累积一列中的值 https stackoverflow com q
R 更改小数位且不四舍五入

gt signif 1 89 digits 2 1 1 9 我想要1 8 这有点笨拙但它会起作用并保持所有数字 x lt 1 829380 trunc dec lt function x n floor x 10 n 10 n Resul
如何按 data.table 中的十分位数组计算统计数据

我有一个 data table 想按组计算统计数据 R set seed 1 R DT data table a rnorm 100 b rnorm 100 这些组应该定义为 R quantile DT a probs seq 1 9 1
使用 R 进行项目组织 [重复]

这个问题在这里已经有答案了可能的重复统计分析和报告撰写的工作流程 https stackoverflow com questions 1429907 workflow for statistical analysis and repor
R：将 JSON 时间格式转换为 POSIX

我有一个 JSON 字符串并将其放入数据框中我能够做到这一点但我在使用 apply 函数之一将所有时间字符串转换为 POSIX 格式时遇到问题 See here https stackoverflow com questions 90
在 R 中使用 Huggingface Transformer 模型

我正在尝试在 R 中使用不同的 Huggingface 模型这是通过 reticulate 导入 Transformer 包来实现的谢谢 https rpubs com eR ic transfoRmers https rpubs co
使用predictNLS围绕R中的拟合值创建置信区间？

我想使用 R 中 propogate 包中的 PredictNLS 围绕一大组拟合值构建置信区间作为示例我将使用它们在函数描述中引用的数据集 https rdrr io github anspiess propagate man pre
单击 R 中的 Sankey Chart 线时添加额外的标签值

以下 R 闪亮脚本创建一个桑基图如下面的快照所示我的要求是当我单击左右节点之间的任何链接即 a1 和 a2 时我希望相应的 a3 的总和出现在标签中例如 a1 中的 A 和 a2 中的 E 总共具有值 50 和 32 因此我想
非闪亮上下文中的反应式对象绑定

实际问题你怎样才能近似反应性环境行为 http shiny rstudio com tutorial lesson6 建立者shiny http shiny rstudio com函数或者甚至可能在一个函数中使用这些函数无光泽上下文以

随机推荐

设置scendantFocusability=“blocksDescendants”后，列表视图行中的文本视图无法单击

我为列表视图编写了自定义项目布局该布局有许多小部件有些小部件有自己的点击监听器当我单击该行时有时列表视图的 onListItemClick 起作用但有时不起作用经过我一段时间的搜索我找到了一种方法设置机器人 descenda
当游乐场被禁用时，apollo-server 返回缺少 GET 查询

当我效仿的时候production aka playground is disabled 然后我回到我的根 http localhost 9000 我收到以下回复 400 Bad Request GET query missing 有没有办
将当前类作为返回类型注释[重复]

这个问题在这里已经有答案了在 python 3 中我可以创建参数并返回类型注释例子 class Graph def init self V int E int edges list pass classmethod def fromf
如何创建带有列标题和行标题的 UICollectionView？

我想创建一个如下所示的 UICollectionView 它不可滚动或可编辑我目前想知道如何为此编写布局我猜它不会是的子类UICollectionViewFlowLayout 我可以想到很多方法但很好奇是否有任何正确的方法这些单
为什么 PHPUnit 代码覆盖率不报告未调用的函数？

我正在尝试获取我的一个项目的代码覆盖率但未调用的函数和类不会纳入覆盖率计算当大块代码被忽略时很难看出哪些内容很多没有被覆盖在下图中我希望前三个函数的主体以红色突出显示至少在执行的函数中未执行的行显示为红色无论如何我正在使
如何从ContentView获取ContentPage的BindingContext？

我有以下 Contentpage content 我在其中设置了某些绑定上下文
影响测量或影响排列

我正在创建自定义控件如果依赖项属性之一发生更改我需要更新布局我可以使用FrameworkMetadataProperty AffectsMeasure or FrameworkMetadataProperty AffectsArran
C++ 如何将输入值分配给 std::bitset 参数？

我想制作一个简单的程序它将从输入中获取位数并作为输出显示二进制数写在给定的位上例如我输入 3 它显示 000 001 010 011 100 101 110 111 我遇到的唯一问题是第二个for 循环当我尝试分配变量时位集bit
ios开发如何解析xml

所以我知道如何解析一些 XML 结构但我目前正在尝试解析这个特定的 xml 结构这与我习惯的有点不同通常我会解析类似的东西
循环“接口”依赖关系和温莎堡

我有组件 public interface IFoo public interface IBar public class Foo IFoo public IBar Bar get set public class Bar IBar pub
在cucumber-junit中动态传递cucumber选项？

我明白那个 CucumberOptions用于传递 Cucumber 选项但由于Java注解只允许内联常量的限制使用起来相当麻烦 CucumberOptions 那么使用 cucumber junit 时是否有一种动态方式来传递 Cu
在 Fedora 16 上安装 X11

我希望安装 X11 开发库我的操作系统是 Fedora 16 我发现这个链接提供了 X11R7 6 的源代码 http www x org releases X11R7 6 src 你能告诉我接下来的几个步骤吗提前致谢无需自己下载标头
如何在 Perl 程序中将行换行至 45 个字符？

我正在 Perl CGI 程序中编写以下文本 text message lines split n text lCnt lines 1 lineStart 80 lineHeight 24 我想在 45 个字符后强制返回我在这里该怎么做
RemoteViewFactory onDataSetChanged() 每个notifyAppWidgetViewDataChanged() 仅调用一次[重复]

这个问题在这里已经有答案了我正在构建一个小部件来加载每个食谱的成分列表我的目标是能够拥有该小部件的多个实例并独立加载更新它们的成分列表 ListView 我已经设置了一个配置活动供用户选择菜谱配置并填充远程视图并为我的配料列表创建
使用 SharePoint spfx、React 和 Get 组件与模板的 Graph Toolkit 工作示例

我正在尝试在我的 SharePoint spfx Web 部件解决方案中使用 Microsoft Graph Toolkit 更具体地说是 React 版本 microsoft mgt react 我已成功导入包并正确呈现控件不过我现
如何在 C 中以可移植的方式管理内存对齐和通用指针算术？

我必须实现 malloc realloc free 的优化版本针对我的特定应用程序量身定制目前代码在特定平台上运行但如果可能的话我想以可移植的方式编写它平台将来可能会改变或者至少我想将可能的平台差异集中在一个单一的平台上点可
使用多个条件过滤 EAV 表

我有 2 张桌子 Table objects object id object group id Table attributes attr id attr object id attr property id attr value 现在
在 Angular 2 中重新渲染数据表 - dtInstance.then 错误

我的 Angular 2 应用程序中有一个组件它有一个下拉列表和一个数据表根据从下拉列表中选择的名称我想在数据表中显示详细信息 HTML div div
异步和等待：多个等待表达式

我在理解如何使用 async 和 wait 工作时遇到了一些困难据我所知当异步方法命中等待表达式时该方法立即返回并且在将来的某个时刻等待表达式返回并且该方法继续执行那么我不明白的是当异步方法包含多个等待表达式时会发生什么当执
使用 model.matrix 进行 One-hot 编码

model matrix 中有一些我不明白的东西当我输入一个没有截距的二进制变量时它返回两个级别 gt temp data lt data frame x sample c A B 1000 replace TRUE gt temp d

使用 model.matrix 进行 One-hot 编码

使用 model.matrix 进行 One-hot 编码 的相关文章

随机推荐

热门标签

使用 model.matrix 进行 One-hot 编码的相关文章