With data.table
重新编码可以通过以下方式解决加入时更新:
DT[.(V1 = 1:2, to = 0:1), on = "V1", V1 := i.to]
DT[.(V2 = LETTERS[1:3], to = c("T", "K", "D")), on = "V2", V2 := i.to]
哪个转换DT
to
V1 V2 V4
1: 0 T 1
2: 0 K 2
3: 1 D 3
4: 0 T 4
5: 0 K 5
6: 1 D 6
7: 0 T 7
8: 0 K 8
9: 1 D 9
10: 0 T 10
11: 0 K 11
12: 1 D 12
Edit:@Frank 建议使用i.to
为了安全起见。
解释
表达式.(V1 = 1:2, to = 0:1)
and .(V2 = LETTERS[1:3], to = c("T", "K", "D"))
分别创建查找表即时.
或者,可以预先设置查找表
lut1 <- data.table(V1 = 1:2, to = 0:1)
lut2 <- data.table(V2 = LETTERS[1:3], to = c("T", "K", "D"))
lut1
V1 to
1: 1 0
2: 2 1
lut2
V2 to
1: A T
2: B K
3: C D
然后,更新连接 become
DT[lut1, on = "V1", V1 := i.to]
DT[lut2, on = "V2", V2 := i.to]
编辑2:答案我如何动态地使用此代码?
马特问 https://stackoverflow.com/questions/44590935/recode-a-variable-using-data-table/44592473?noredirect=1#comment125605674_44592473 "我如何动态地使用此代码?"
因此,这是一个修改版本,其中要更新的列的名称作为字符变量提供my_var_name
但查找表仍然被创建即时:
my_var_name <- "V1"
DT[.(from = 1:2, to = 0:1), on = paste0(my_var_name, "==from"),
(my_var_name) := i.to]
my_var_name <- "V2"
DT[.(from = LETTERS[1:3], to = c("T", "K", "D")), on = paste0(my_var_name, "==from"),
(my_var_name) := i.to]
有3点需要注意:
- 它不是动态命名查找表的第一列,而是获得固定名称
from
。这需要不同命名的列之间的联接(外键连接)。必须通过以下方式指定要加入的列的名称on
范围。
- The
on
参数接受字符串外键连接形式的"V1==from"
。该字符串是使用动态创建的paste0()
.
- 在表达式中
(my_var_name) := i.to
,变量两边的括号my_var_name
强制使用内容my_var_name
.
使用预定义查找表的动态代码
现在,虽然要重新编码的列是由变量动态指定的,但要使用的查找表仍然是硬编码的在语句中这意味着我们已经中途停止了:我们还需要动态选择适当的查找表。
这可以通过将查找表存储在列表中来实现,其中每个列表元素根据以下列命名DT
它应该重新编码:
lut_list <- list(
V1 = data.table(from = 1:2, to = 0:1),
V2 = data.table(from = LETTERS[1:3], to = c("T", "K", "D"))
)
lut_list
$V1
from to
<int> <int>
1: 1 0
2: 2 1
$V2
from to
<char> <char>
1: A T
2: B K
3: C D
现在,我们也可以从列表中动态选择适当的查找表:
my_var_name <- "V1"
DT[lut_list[[my_var_name]], on = paste0(my_var_name, "==from"),
(my_var_name) := i.to]
更进一步,我们可以重新编码all的相关栏目DT
in a loop:
for (v in intersect(names(lut_list), colnames(DT))) {
DT[lut_list[[v]], on = paste0(v, "==from"), (v) := i.to]
}
注意DT
is 通过参考更新,即仅替换受影响的元素in place而不复制整个对象。所以for
循环迭代地应用于同一数据对象。这是一个专业数据表 /questions/tagged/data.table并且不适用于 data.frames 或 tibbles。