提取两个或多个字段中具有重复值但另一个字段中具有不同值的行

2023-12-09

目标是从 dataframe/data.table 中提取具有以下内容的行：

两个或多个字段中的值相同（此处为 NAME 和 DOB）；但
另一个字段中的不同值（此处为 ID）

目前我正在这样做：

library(data.table)

# load the data
customers <- structure(list(
  NAME = c("GEETA SHYAM RAO", "B V RAMANA", "GONTU VENKATARAMANAIAH", 
           "DAMAT RAMAKRISHNA", "MARIAM SUDHAKAR", "VELPURI LAKSHMI SUJATHA", 
           "MOHAMMED LIYAKHAT ALI", "VENKATESHWARAN PONNAMBALAM",
           "DEVARAKONDA SATISH BABU", "GEEDI RAMULU", "KANDU OBULESU",
           "J PARVATHALU(TEMP.SUB-STAFF)", "DOKKA RAJESH", "G TULASIRAM REDDY",
           "MALLELA CHIRANJEEVI", "MANEPALLI VENKATA RAVAMMA", 
           "DOKKA JAGADEESHWAR", "K KRISHNA", "B SUDARSHAN", "B ANNAPURNA", 
           "CHAVVA SHIVA RAMULU", "BIKASH BAHADUR CHITRE", "DARBAR ASHOK", 
           "VEMULAPALLY SANGAMESHWAR RAO", "MOHAMMED ABDUL HAKEEM ANWAR", 
           "MANEPALLI SHIV SHANKAR RAO", "MOHD MISKEEN MOHIUDDIN",
           "KOTLA CHENNAMMA", "NAYAK SURYAKANTH", "GOPIREDDY INDIRA", 
           "MEKALA SREEDEVI", "K KRISHNA", "B V RAMANA", "KUMMARI VENKATESHAM",
           "BHAVANI CONSRUCTIONS", "UPPUTHOLLA KOTAIAH", "YEDIDHA NIRMALA DEVI",
           "MARIAM SUDHAKAR", "B ANNAPURNA", "VELPURI LAKSHMI SUJATHA",
           "DARBAR ASHOK", "AMMANA VISHNU VARDHAN REDDY", "ZAITOON BEE",
           "MOHD CHAND PASHA", "PALERELLA RAMESH", "GEEDI SRINIVAS", 
           "RAMAIAH SADU", "BIMAN BALAIAH", "KOTLA CHENNAMMA", 
           "VENKATESHWARAN PONNAMBALAM"), 
  DOB = c("13-02-1971", "15-01-1960", "01-07-1970", "10-03-1977", 
          "24-01-1954", "28-06-1971", "26-01-1980", "14-04-1969", "23-09-1978", 
          "15-08-1954", "09-10-1984", "20-02-1975", "29-09-1984", "03-03-1975", 
          "26-01-1979", "01-01-1964", "21-01-1954", "01-05-1964", "12-03-1975", 
          "12-12-1962", "10-03-1982", "14-05-1983", "03-01-1950", "04-03-1962", 
          "12-05-1966", "01-06-1960", "10-03-1964", "15-07-1958", "26-06-1979", 
          "02-04-1974", "10-01-1975", "01-05-1964", "15-01-1960", "08-08-1977", 
          NA, "05-04-1981", "29-08-1971", "24-01-1954", "12-12-1962",
          "28-06-1971", "03-01-1950", "23-06-1970", "20-02-1960", "05-07-1975",
          "10-01-1979", "31-08-1982", "10-08-1983", "10-03-1964", 
          "15-07-1958", "14-04-1969"), 
  ID = c(502969, 502902, 502985, 502981, 502475, 502267, 502976, 
         502272, 502977, 502973, 502986, 502978, 502989, 502998, 502967, 
         502971, 502988, 502737, 502995, 502878, 502972, 502984, 502639, 
         502968, 502975, 502970, 502997, 502466, 502991, 502982, 502980, 
         502737, 502902, 502999, 502994, 502987, 502990, 502047, 502877, 
         502251, 502548, 502992, 503000, 502993, 502983, 502974, 502996, 
         502979, 502467, 502290),
  PIN = c(500082, 500032, 500032, 500032, 
          500032, 500084, 500032, 500032, 500032, 500032, 500032, 500084, 
          500032, 500084, 500084, 500032, 5e+05, 500050, 500032, 500084, 
          500032, 500032, 500032, 500050, 500032, 500032, 500045, 500032, 
          500084, 500032, 500032, 500084, 500035, 500084, 500032, 500032, 
          500032, 500032, 500084, 500032, 500084, 500033, 500084, 500032, 
          500032, 500032, 500084, 500032, 500032, 500032)),
  .Names = c("NAME", "DOB", "ID", "PIN"), 
  class = c("data.table", "data.frame"), row.names = c(NA,-50L))

查一下数据：

dim(customers)
#[1] 50  4

head(customers)
                      NAME        DOB     ID    PIN
#1:         GEETA SHYAM RAO 13-02-1971 502969 500082
#2:              B V RAMANA 15-01-1960 502902 500032
#3:  GONTU VENKATARAMANAIAH 01-07-1970 502985 500032
#4:       DAMAT RAMAKRISHNA 10-03-1977 502981 500032
#5:         MARIAM SUDHAKAR 24-01-1954 502475 500032
#6: VELPURI LAKSHMI SUJATHA 28-06-1971 502267 500084

第 1 步：获取 NAME 和 DOB 列中具有相同值的行 -

dup1 <- customers[, .(ID, PIN, .N), keyby=.(NAME, DOB)][N>1][, -"N"]
dup1
#                          NAME        DOB     ID    PIN
# 1:                B ANNAPURNA 12-12-1962 502878 500084
# 2:                B ANNAPURNA 12-12-1962 502877 500084
# 3:                 B V RAMANA 15-01-1960 502902 500032
# 4:                 B V RAMANA 15-01-1960 502902 500035
# 5:               DARBAR ASHOK 03-01-1950 502639 500032
# 6:               DARBAR ASHOK 03-01-1950 502548 500084
# 7:                  K KRISHNA 01-05-1964 502737 500050
# 8:                  K KRISHNA 01-05-1964 502737 500084
# 9:            KOTLA CHENNAMMA 15-07-1958 502466 500032
#10:            KOTLA CHENNAMMA 15-07-1958 502467 500032
#11:            MARIAM SUDHAKAR 24-01-1954 502475 500032
#12:            MARIAM SUDHAKAR 24-01-1954 502047 500032
#13:    VELPURI LAKSHMI SUJATHA 28-06-1971 502267 500084
#14:    VELPURI LAKSHMI SUJATHA 28-06-1971 502251 500032
#15: VENKATESHWARAN PONNAMBALAM 14-04-1969 502272 500032
#16: VENKATESHWARAN PONNAMBALAM 14-04-1969 502290 500032

在上面的结果中，“B V RAMANA”和“K KRISHNA”的 ID 值在其重复行中相同，因此需要删除。

步骤 2：获取 NAME、DOB 和 ID 列中具有相同值的行 -

dup2 <- dup1[, .(PIN, .N), keyby=.(NAME, DOB, ID)][N>1][, -"N"]
dup2
#         NAME        DOB     ID    PIN
#1: B V RAMANA 15-01-1960 502902 500032
#2: B V RAMANA 15-01-1960 502902 500035
#3:  K KRISHNA 01-05-1964 502737 500050
#4:  K KRISHNA 01-05-1964 502737 500084

步骤 3：现在从步骤 1 中的行中删除步骤 2 中的行以获得最终结果 -

result <- fsetdiff(dup1, dup2)
result
#                          NAME        DOB     ID    PIN
# 1:                B ANNAPURNA 12-12-1962 502878 500084
# 2:                B ANNAPURNA 12-12-1962 502877 500084
# 3:               DARBAR ASHOK 03-01-1950 502639 500032
# 4:               DARBAR ASHOK 03-01-1950 502548 500084
# 5:            KOTLA CHENNAMMA 15-07-1958 502466 500032
# 6:            KOTLA CHENNAMMA 15-07-1958 502467 500032
# 7:            MARIAM SUDHAKAR 24-01-1954 502475 500032
# 8:            MARIAM SUDHAKAR 24-01-1954 502047 500032
# 9:    VELPURI LAKSHMI SUJATHA 28-06-1971 502267 500084
#10:    VELPURI LAKSHMI SUJATHA 28-06-1971 502251 500032
#11: VENKATESHWARAN PONNAMBALAM 14-04-1969 502272 500032
#12: VENKATESHWARAN PONNAMBALAM 14-04-1969 502290 500032

在上述每种情况下，NAME 和 DOB 列都有重复值，但这些重复行的 ID 列中的值必然不同。

这是用于获取结果的三行处理代码，但我确信必须有替代方法。在此示例中，只有四个字段。比如说，超过 50 个字段，即使使用复制粘贴将所有字段名称都放入代码中也是一项乏味的工作。因此，创建一个可以作为输入的可重用函数真的很酷 -

数据框/数据表
仅包含必须包含重复值的字段名的向量
必须包含不同值的单个字段名

并将结果输出为 dataframe/data.table。请出主意。

边注：该功能在欺诈分析中被认为非常重要，以至于商业软件“CaseWare IDEA”以“重复密钥排除”的名称提供了该功能。检查此功能的实际效果：https://www.youtube.com/watch?v=XqL4j8UXsKw

我觉得OP的方法已经很好了。然而， ...

With j = .N就其本身而言，它会更有效率。看?GForce了解详情。
我认为OP的两个步骤在OP和链接视频中描述的“重复键排除”任务中没有成功：

在上述每种情况下，NAME 和 DOB 列都有重复值，但这些重复行的 ID 列中的值必然不同。

对于OP的两个步骤，有......

bycols = c("NAME", "DOB")
dcol = "ID"

cols = c(bycols, dcol)

w1 = customers[customers[, .N, by=bycols][N > 1L, !"N"], on=bycols, which=TRUE]
customers[w1][!customers[w1, .N, by=cols][N > 1L, !"N"], on=cols]

对于引用的任务...

mDT = customers[!duplicated(customers, by=cols), .N, by=bycols][N > 1L]
customers[mDT[, !"N"], on=bycols]

不管怎样，对于OP的例子，我们得到

                          NAME        DOB     ID    PIN
 1:            MARIAM SUDHAKAR 24-01-1954 502475 500032
 2:            MARIAM SUDHAKAR 24-01-1954 502047 500032
 3:    VELPURI LAKSHMI SUJATHA 28-06-1971 502267 500084
 4:    VELPURI LAKSHMI SUJATHA 28-06-1971 502251 500032
 5: VENKATESHWARAN PONNAMBALAM 14-04-1969 502272 500032
 6: VENKATESHWARAN PONNAMBALAM 14-04-1969 502290 500032
 7:                B ANNAPURNA 12-12-1962 502878 500084
 8:                B ANNAPURNA 12-12-1962 502877 500084
 9:               DARBAR ASHOK 03-01-1950 502639 500032
10:               DARBAR ASHOK 03-01-1950 502548 500084
11:            KOTLA CHENNAMMA 15-07-1958 502466 500032
12:            KOTLA CHENNAMMA 15-07-1958 502467 500032

mDT是一个描述重复项的汇总表，方便浏览：

> mDT
                         NAME        DOB N
1:            MARIAM SUDHAKAR 24-01-1954 2
2:    VELPURI LAKSHMI SUJATHA 28-06-1971 2
3: VENKATESHWARAN PONNAMBALAM 14-04-1969 2
4:                B ANNAPURNA 12-12-1962 2
5:               DARBAR ASHOK 03-01-1950 2
6:            KOTLA CHENNAMMA 15-07-1958 2

__San__ 编辑（原海报）：

修改数据集以显示如何处理 Frank 之前指出的情况：“ID = A A B 的组将失去两个 A 并保留 B”

library(data.table)

# load the data
customers <- structure(list(
  NAME = c("GEETA SHYAM RAO", "B V RAMANA", "GONTU VENKATARAMANAIAH", 
           "DAMAT RAMAKRISHNA", "MARIAM SUDHAKAR", "VELPURI LAKSHMI SUJATHA", 
           "MOHAMMED LIYAKHAT ALI", "VENKATESHWARAN PONNAMBALAM", 
           "DEVARAKONDA SATISH BABU", "GEEDI RAMULU", "KANDU OBULESU",
           "B V RAMANA", "DOKKA RAJESH", "G TULASIRAM REDDY", 
           "MALLELA CHIRANJEEVI", "MANEPALLI VENKATA RAVAMMA", 
           "DOKKA JAGADEESHWAR", "K KRISHNA", "B SUDARSHAN", "B ANNAPURNA", 
           "CHAVVA SHIVA RAMULU", "BIKASH BAHADUR CHITRE", "DARBAR ASHOK", 
           "VEMULAPALLY SANGAMESHWAR RAO", "MOHAMMED ABDUL HAKEEM ANWAR", 
           "MANEPALLI SHIV SHANKAR RAO", "MOHD MISKEEN MOHIUDDIN",
           "KOTLA CHENNAMMA", "NAYAK SURYAKANTH", "GOPIREDDY INDIRA", 
           "MEKALA SREEDEVI", "K KRISHNA", "B V RAMANA", 
           "KUMMARI VENKATESHAM", "BHAVANI CONSRUCTIONS", 
           "UPPUTHOLLA KOTAIAH", "YEDIDHA NIRMALA DEVI", "MARIAM SUDHAKAR", 
           "B ANNAPURNA", "VELPURI LAKSHMI SUJATHA", "DARBAR ASHOK", 
           "AMMANA VISHNU VARDHAN REDDY", "ZAITOON BEE", "MOHD CHAND PASHA",
           "PALERELLA RAMESH", "GEEDI SRINIVAS", "RAMAIAH SADU",
           "BIMAN BALAIAH", "KOTLA CHENNAMMA", "VENKATESHWARAN PONNAMBALAM"),
  DOB = c("13-02-1971", "15-01-1960", "01-07-1970", "10-03-1977", 
          "24-01-1954", "28-06-1971", "26-01-1980", "14-04-1969", 
          "23-09-1978", "15-08-1954", "09-10-1984", "15-01-1960", 
          "29-09-1984", "03-03-1975", "26-01-1979", "01-01-1964", 
          "21-01-1954", "01-05-1964", "12-03-1975", "12-12-1962", 
          "10-03-1982", "14-05-1983", "03-01-1950", "04-03-1962", 
          "12-05-1966", "01-06-1960", "10-03-1964", "15-07-1958", 
          "26-06-1979", "02-04-1974", "10-01-1975", "01-05-1964",
          "15-01-1960", "08-08-1977", NA, "05-04-1981", "29-08-1971",
          "24-01-1954", "12-12-1962", "28-06-1971", "03-01-1950",
          "23-06-1970", "20-02-1960", "05-07-1975", "10-01-1979", 
          "31-08-1982", "10-08-1983", "10-03-1964", "15-07-1958",
          "14-04-1969"),
  ID = c(502969, 502902, 502985, 502981, 502475, 502267, 502976, 
         502272, 502977, 502973, 502986, 502910, 502989, 502998, 502967, 
         502971, 502988, 502737, 502995, 502878, 502972, 502984, 502639, 
         502968, 502975, 502970, 502997, 502466, 502991, 502982, 502980, 
         502737, 502902, 502999, 502994, 502987, 502990, 502047, 502877, 
         502251, 502548, 502992, 503000, 502993, 502983, 502974, 502996, 
         502979, 502467, 502290), 
  PIN = c(500082, 500032, 500032, 500032, 500032, 500084, 500032, 500032,
          500032, 500032, 500032, 500033, 500032, 500084, 500084, 500032,
          5e+05, 500050, 500032, 500084, 500032, 500032, 500032, 500050,
          500032, 500032, 500045, 500032, 500084, 500032, 500032, 500084,
          500035, 500084, 500032, 500032, 500032, 500032, 500084, 500032,
          500084, 500033, 500084, 500032, 500032, 500032, 500084, 500032,
          500032, 500032)),
  .Names = c("NAME", "DOB", "ID", "PIN"),
  row.names = c(NA, -50L), class = c("data.table", "data.frame"))

# define function for duplicate key exclusion
dupKeyEx <- function(DT, dup_cols, unique_cols) {
  cols <-  c(dup_cols, unique_cols)
  mDT <-  DT[!duplicated(DT, by=cols), .N, by=dup_cols][N > 1L]
  ans <- unique(DT[mDT[, !"N"], on=dup_cols], by=cols)
  return(ans)
}

# call function
result <- dupKeyEx(customers, c("NAME", "DOB"), "ID")
result

结果告诉我们，B V RAMANA（相同的姓名和出生日期）已获得多个 ID，并显示这些不同的 ID，如下所示：

                          NAME        DOB     ID    PIN
 1:                B ANNAPURNA 12-12-1962 502877 500084
 2:                B ANNAPURNA 12-12-1962 502878 500084
 3:                 B V RAMANA 15-01-1960 502902 500032
 4:                 B V RAMANA 15-01-1960 502910 500033
 5:               DARBAR ASHOK 03-01-1950 502548 500084
 6:               DARBAR ASHOK 03-01-1950 502639 500032
 7:            KOTLA CHENNAMMA 15-07-1958 502466 500032
 8:            KOTLA CHENNAMMA 15-07-1958 502467 500032
 9:            MARIAM SUDHAKAR 24-01-1954 502047 500032
10:            MARIAM SUDHAKAR 24-01-1954 502475 500032
11:    VELPURI LAKSHMI SUJATHA 28-06-1971 502251 500032
12:    VELPURI LAKSHMI SUJATHA 28-06-1971 502267 500084
13: VENKATESHWARAN PONNAMBALAM 14-04-1969 502272 500032
14: VENKATESHWARAN PONNAMBALAM 14-04-1969 502290 500032

如果 OP 方法用于此修改后的数据集，则 B V RAMANA 具有相同 ID 的两行将丢失，并且结果将仅显示颁发给 B V RAMANA 的一个（总共三个）ID，因为使用该方法“ID = A A B 的一组”将失去两个 A 并保留 B”（引用 Frank 的话）。这同样适用于 Uwe Block 的其他 data.table 解决方案。不符合目的的结果如下所示。

                          NAME        DOB     ID    PIN
 1:                B ANNAPURNA 12-12-1962 502878 500084
 2:                B ANNAPURNA 12-12-1962 502877 500084
 3:                 B V RAMANA 15-01-1960 502910 500033
 4:               DARBAR ASHOK 03-01-1950 502639 500032
 5:               DARBAR ASHOK 03-01-1950 502548 500084
 6:            KOTLA CHENNAMMA 15-07-1958 502466 500032
 7:            KOTLA CHENNAMMA 15-07-1958 502467 500032
 8:            MARIAM SUDHAKAR 24-01-1954 502475 500032
 9:            MARIAM SUDHAKAR 24-01-1954 502047 500032
10:    VELPURI LAKSHMI SUJATHA 28-06-1971 502267 500084
11:    VELPURI LAKSHMI SUJATHA 28-06-1971 502251 500032
12: VENKATESHWARAN PONNAMBALAM 14-04-1969 502272 500032
13: VENKATESHWARAN PONNAMBALAM 14-04-1969 502290 500032

直到有人想到新方法失败的情况，我认为我们已经找到了“重复键排除”的正确解决方案。 Frank 提供的出色的 catch 和 data.table 解决方案。

对于涵盖由于前导或尾随空格而导致值不匹配的情况的扩展，请参阅OP的后续内容如何引用函数内变量中保存的多个列名，它使用stringr::str_trim()并得出结论：

dupKeyEx <- function(DT, dup_cols, unique_cols) {
  cols <-  c(dup_cols, unique_cols)
  chr_cols <- cols[sapply(DT[, ..cols], is.character)]
  DT[, (chr_cols) := lapply(.SD, stringr::str_trim), .SDcols=chr_cols]
  mDT <-  DT[!duplicated(DT, by=cols), .N, by=dup_cols][N > 1L]
  ans <- unique(DT[mDT[, !"N"], on=dup_cols], by=cols)
  setorderv(ans, c(dup_cols, unique_cols))
  return(ans)
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dataTable

提取两个或多个字段中具有重复值但另一个字段中具有不同值的行的相关文章

如何在 R 中为传单中的数值变量设置不对称颜色渐变

我想让传单调色板以零为中心红白绿发散我已经尝试过中所说的这个帖子 https stackoverflow com questions 29262824 r center color palette on 0 当我尝试手动创建颜色时我得
如何获得属于五分位数的x？

我正在大学学习使用 R 进行计量经济学项目所以请原谅我的笨拙基本上使用并给出一个矩阵股票价格行天列公司股票价格另一个矩阵市值行天列公司市值我必须收集第三个矩阵每天观察的属于市值分布第一五分位数的股票价格然后
将 sf voronoi 多边形裁剪到边界框时出错

我正在尝试将 voronoi polygons 使用 sf package 创建剪辑到边界框但它引发了我无法定义的错误我对 R 的空间世界不太有经验感谢所有帮助样本数据 stations lt structure list ST
根据另一列中的键累积一列中的值时出现问题

我有一个看起来像这样的数据框我需要使用 PROJ ID 列中的字符串创建一个新的值列并形成 PROJ NAME 列中的值字符串这里提供的解决方案根据 r 中另一列的键累积一列中的值 https stackoverflow com q
如何更改 Shiny 中 navbarPage 折叠的断点

我想用shiny navbarPage collapsible TRUE 当在小屏幕上查看我的 Shiny 应用程序时将导航元素折叠到菜单中默认情况下当浏览器宽度小于 940 像素时会触发折叠有什么方法可以改变这一点以便在稍大的浏
解析，用三点参数替换

让我们考虑一个典型的deparse substitute R call f1 lt function u x y print deparse substitute x varU vu varX vx varY vy f1 u varU x
如何按 data.table 中的十分位数组计算统计数据

我有一个 data table 想按组计算统计数据 R set seed 1 R DT data table a rnorm 100 b rnorm 100 这些组应该定义为 R quantile DT a probs seq 1 9 1
比较 R 中的两个字符向量

我有两个 ID 字符向量我想比较这两个字符向量特别是我对以下数字感兴趣 A和B各有多少个ID 有多少个ID在A中但不在B中有多少个ID在B但不在A 我还想画维恩图以下是一些可以尝试的基础知识 gt A c Dog Cat Mouse
SQL 连接两个没有关系的表

我有具有相同结构的不同表我想通过其中一列将它们连接起来问题是他们不共享该专栏中的信息 Table 1 Type A Name Value Table 2 Type B Name Value 结果表在单列中 nameFromA name
glmnet 未从 cv.glmnet 收敛 lambda.min

我跑了20倍cv glmnet套索模型以获得 lambda 的最佳值但是当我尝试重现结果时glmnet 我收到一个错误内容如下 Warning messages 1 from glmnet Fortran code error c
如何计算嵌套函数中的粘合表达式？

我正在尝试嵌套一个函数该函数将两个字符串粘合在一起该函数使用组合字符串来命名数据帧的列然而问题似乎是粘合表达式没有足够早地评估为字符串我可以并且应该强制在将表达式作为参数传递给另一个函数之前对其进行求值吗 library ti
在 R 中使用 Huggingface Transformer 模型

我正在尝试在 R 中使用不同的 Huggingface 模型这是通过 reticulate 导入 Transformer 包来实现的谢谢 https rpubs com eR ic transfoRmers https rpubs co
ggplot2、R 中的单条形条形图

我有以下数据和代码 gt ddf var1 var2 1 aa 73 2 bb 18 3 cc 9 gt gt dput ddf structure list var1 c aa bb cc var2 c 73L 18L 9L Names
单击 R 中的 Sankey Chart 线时添加额外的标签值

以下 R 闪亮脚本创建一个桑基图如下面的快照所示我的要求是当我单击左右节点之间的任何链接即 a1 和 a2 时我希望相应的 a3 的总和出现在标签中例如 a1 中的 A 和 a2 中的 E 总共具有值 50 和 32 因此我想
如何根据两个数据框中最近的日期进行匹配？

假设我有两个数据框例如 set seed 123 df1 lt data frame bmi rnorm 20 25 5 date1 sample seq Date as Date 2014 01 01 as Date 2014 02 2
如何从R arrow中的feather文件中读取列名和元数据？

现已取代独立R 的羽毛库 https github com wesm feather有一个函数叫做feather metadata 允许从磁盘上的羽毛文件中读取列名称和类型而无需打开它们当在 R 中加载羽毛文件时这对于仅选择特定列很
更改计划的开始日期以优化资源

我有很多工作需要在特定的时间间隔执行然而我们每天完成这项工作的资源有限因此我正在尝试优化开始时间日期开始时间日期只能向前移动不能向后移动以便每天使用的资源与我们的预算更加不相似这些函数在下面的示例中使用 Function t
检查单词是否存在于英语词典 r 中

我正在对多个进行一些文本分析resume生成一个wordcloud using wordcloud包装连同tm用于在 R 中预处理文档语料库的包我面临的问题是检查语料库中的单词是否具有某种含义即它属于英语词典如何一起挖掘处理多份
如何在我自己的网络服务器上导出并托管 ggvis 图表？

据我了解 ggvis 运行在闪亮的之上但我不知道如何在没有 R shiny 的情况下导出在网络服务器上运行单个 ggvis 图表所需的所有文件这对于交互式绘图来说是不可能的因为每个交互式 ggvis 图都必须连接到正在运行的 R 会
根据R中的前一行和当前行按组计算

我可以根据 R 中的前一行和当前行进行计算对于此数据框 df A B 1 2 2 2 2 3 3 4 5 5 B2 A2 0 5 B1 我可以使用这段代码来计算这个函数 for i in 2 nrow df B i lt 1 2 B i

随机推荐

使用 ODP.Net 托管客户端将对象数组传递给 Oracle 存储过程

我的 Web API 中有以下 Employee 类 public class Employee public string Name get set public string City get set 我的 Web API 收到每个请求
使用 PhantomJS + Selenium 处理重定向

我目前通过 PhantomJS Selenium 在 Python 中运行浏览器测试 desired capabilities dict DesiredCapabilities PHANTOMJS desired capabilities
如何在准备好的语句中实现like运算符？ [复制]

这个问题在这里已经有答案了 ps con prepareStatement select from REGISTER inner join ORGAN on REGISTER PATIENTID ORGAN PATIENTID where
数据库：第三范式数据库中可以有可为空的属性吗？

我有一个可为空的winnerID属性根据拍卖的出价不断更新该属性设置为在最后某个时间保存以计算谁赢得了拍卖但这个值最初是空的这会违反第三范式吗我知道 1NF 规则 4 规定我不能有可为 null 的属性但注释说这是一个有争议的声明
将云函数更新到合适的 Node js 版本

firebase FCM通知的云函数在早期版本的Node js 8中运行良好但现在由于node 8已弃用并且需要更新我应该对云函数代码进行哪些更改我已经安装了我的机器上有 Nodejs 14 您绝对需要进行的唯一更改根本不在您的代码中
如何为类编写scala匹配器？

假设我有以下代码 def get T name String implicit mf ClassManifest T T mf erasure match case classOf Boolean gt obj getBoolean nam
C - 将指针数据保存/加载到文件

首先如果这个问题之前被问过或者有一个我看不到的明显的解决方案我深表歉意我找到了一个similar但我相信我所问的问题比之前所问的更进一步我的结构如下 typedef struct int id char title char bod
如何对集合中的数组进行排序

我一直在寻找对集合中的特定内部数组进行排序我在 symfony2 中使用doctrine mongodb bundle 我的收藏 page id 56rgt46rt54h68rt4h6 categories id 2g56rt1h65rt
在单独的进程中创建 iframe，这样它就不会阻塞父窗口的主线程

我最近听说rel noopener 可以添加到锚标记的属性值以便新窗口在单独的进程中运行这让我想知道是否可以创建一个在单独进程中运行的 iframe 以便 iframe 中的无限循环不会导致父窗口的主线程被阻塞下面是一些观察主线程冻
为什么 eval 类给我一个从 int 到 double 的转换错误？

我正在尝试创建一种方法该方法采用字符串公式并通过以非常小的间隔进行黎曼求和来求解该公式的积分我使用 ScriptEngine 和 ScriptEngineManager 类来评估函数使用 eval 方法由于某种原因我收到此错误
使用反射查找 String、Boolean、Integer 类型的字段

有没有办法在类中查找类型的字段 java lang Character TYPE java lang Byte TYPE java lang Short TYPE java lang Integer TYPE java lang Long
使用 Selenium 和 ChromeDriver，自动缩放打印页面的尺寸

我正在编写一个脚本来自动打印 Chrome 中的一组网页如果我要手动打印它们我会从比例下拉列表中选择自定义然后在下面的输入字段中输入 50 当我使用 Selenium 和 ChromeDriver 自动批量打印这些页面时我无法
以编程方式打开 d3.js v6 中的嵌套、折叠（隐藏）节点

后续问题问题以编程方式打开 d3 js v4 中的嵌套折叠隐藏节点更新为 d3 js v6 问题在于 d3 可折叠菜单可视化中外部 JSON 数据的加载以及嵌套折叠隐藏节点的编程访问看来 treeData 即加载的对象
Xcode 生成代码覆盖率报告失败并出现错误：Error Domain=IDEFoundationErrorDomain Code=14“无法合并目录中的原始配置文件

当使用自定义 XCODE CONFIGURATION BUILD DIR 构建工作区时我无法生成代码覆盖率数据我们运行 xcodebuild 命令来使用 XCODE CONFIGURATION BUILD DIR 构建工作区以便多个
爪哇 |仅使用递归和条件创建显式加法函数

Preface 通过在日程中找到一些空闲时间我要求自己提高递归技能不幸的是作为实践我想通过使用递归重新创建所有运算符第一个是加法虽然我有点卡住了 Question 正如所暗示的我想仅使用递归和条件来重新创建加法运算符尽管我完
C# 如何测试文件是否为 jpeg？

使用 C 如何测试文件是否为 jpeg 我应该检查 jpg 扩展名吗 Thanks 几种选择您可以检查文件扩展名 static bool HasJpegExtension string filename add other possibl
Android 即使应用程序关闭也会显示Toast

比方说我必须计算两位数字的总和然后将这两个值传递给服务器服务器返回计算出的值应用程序将其显示在Toast 它工作完美但我想展示这个Toast即使应用程序已关闭我想知道是否可以使用其他Context做一个全球性的Toast 或者什
如何使用 MyLocationOverlay 在 MapView 上绘制当前 GPS 位置？

我正在尝试绘制自定义 GPS 位置图标我在用着MapView并创建了一个类MyLocationArrow延伸MyLocationOverlay 我覆盖drawMyLocation 并在 100 100 处画一个点但这是屏幕上的坐标如何
如何使用 firebase 功能而不是管理员身份在数据库中写入

我试图在某些 http 触发时在 firebase 函数上将一些数据写入数据库我的问题是我没有找到任何示例如何在没有管理员权限的情况下执行此操作因为我仍然希望采用 firebase 规则您正在寻找event data ref 来自参
提取两个或多个字段中具有重复值但另一个字段中具有不同值的行

目标是从 dataframe data table 中提取具有以下内容的行两个或多个字段中的值相同此处为 NAME 和 DOB 但另一个字段中的不同值此处为 ID 目前我正在这样做 library data table load t

提取两个或多个字段中具有重复值但另一个字段中具有不同值的行

提取两个或多个字段中具有重复值但另一个字段中具有不同值的行 的相关文章

随机推荐

热门标签

提取两个或多个字段中具有重复值但另一个字段中具有不同值的行的相关文章