从向量中删除相似但更长的重复项

2024-02-08

对于数据库清理，我有一个向量，例如菜肴，我想删除“基础”菜肴的所有变体，只保留基础菜肴。举例来说，如果我有...

dishes <- c("DAL BHAT", "DAL BHAT-(SPICY)", "DAL BHAT WITH EXTRA RICE", 
            "HAMBURGER", "HAMBURGER-BIG", "HAMBURGER2", "PIZZA", 
            "PIZZA (PROSCIUTO)", "PIZZA_BOLOGNESE")

...我想删除向量中已经具有较短匹配版本的所有条目。因此，所得向量将仅包括：“DAL BHAT”、“HAMBURGER”、“PIZZA”。

使用嵌套for循环并检查所有其他内容将适用于此示例，但对于手头的大型数据集来说会花费很长时间，而且我会说这是丑陋的编码。

可以假设所有条目都是大写的并且向量已经排序。不能假设下一个基菜的第一项总是比前一个条目短。

关于如何有效解决这个问题有什么建议吗？

额外问题：理想情况下，我只想从初始向量中删除项目，前提是它们比较短的对应项目至少长 3 个字符。在上述情况下，这意味着“HAMBURGER2”也将保留在结果向量中。

这是我对此采取的方法。我将创建一个包含一些我需要考虑的条件的函数，并将其用于输入。我添加了注释来解释函数中发生的情况。

该函数有 4 个参数：

invec：输入字符向量。
thresh：我们可以用多少个字符来确定“基础”菜。默认 = 5。
minlen：你的“奖金”问题。默认 = 3。
strict: 符合逻辑。如果有底菜nchar比你的短thresh，您想要降低阈值还是严格限制您对基础的要求？默认 =FALSE。请参阅最后一个示例以了解如何操作strict可能会起作用。

myfun <- function(invec, thresh = 5, minlen = 3, strict = FALSE) {
  # Bookkeeping -- sort, unique, all upper case
  invec <- sort(unique(toupper(invec)))
  # More bookkeeping -- min should not be longer 
  # than min base dish unless strict = TRUE
  thresh <- if (isTRUE(strict)) thresh else min(min(nchar(invec)), thresh)
  # Use `thresh` to get the `stubs``
  stubs <- invec[!duplicated(substr(invec, 1, thresh))]
  # loop through the stubs and do two things:
  #   - Match the dish with the stub
  #   - Return the base dish and any dishes within the minlen
  unlist(
    lapply(stubs, function(x) {
      temp <- grep(x, invec, value = TRUE, fixed = TRUE)
      temp[temp == x | nchar(temp) <= nchar(x) + minlen]
      }), 
    use.names = FALSE)
}

您的样本数据：

dishes <- c("DAL BHAT", "DAL BHAT-(SPICY)", "DAL BHAT WITH EXTRA RICE", 
            "HAMBURGER", "HAMBURGER-BIG", "HAMBURGER2", "PIZZA", 
            "PIZZA (PROSCIUTO)", "PIZZA_BOLOGNESE")

结果如下：

myfun(dishes, minlen = 0)
# [1] "DAL BHAT"  "HAMBURGER" "PIZZA" 

myfun(dishes)
# [1] "DAL BHAT"   "HAMBURGER"  "HAMBURGER2" "PIZZA"

这是更多示例数据。请注意，在“dishes2”中，数据不再排序，并且有一个新项目“DAL”，在“dishes3”中，您还有小写的菜肴。

dishes2 <- c("DAL BHAT", "DAL BHAT-(SPICY)", "DAL BHAT WITH EXTRA RICE", 
             "HAMBURGER", "HAMBURGER-BIG", "HAMBURGER2", "PIZZA", 
             "PIZZA (PROSCIUTO)", "PIZZA_BOLOGNESE", "DAL")

dishes3 <- c("DAL BHAT", "DAL BHAT-(SPICY)", "DAL BHAT WITH EXTRA RICE", 
             "HAMBURGER", "HAMBURGER-BIG", "HAMBURGER2", "PIZZA", 
             "PIZZA (PROSCIUTO)", "PIZZA_BOLOGNESE", "DAL", "pizza!!")

这是这些向量的函数：

myfun(dishes2, 4)
# [1] "DAL"        "HAMBURGER"  "HAMBURGER2" "PIZZA"   

myfun(dishes3)
# [1] "DAL"        "HAMBURGER"  "HAMBURGER2" "PIZZA"      "PIZZA!!"  

myfun(dishes3, strict = TRUE)
# [1] "DAL"        "DAL BHAT"   "HAMBURGER"  "HAMBURGER2" "PIZZA"      "PIZZA!!"

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

regex

vector

set

从向量中删除相似但更长的重复项的相关文章

使用解析将 ** 运算符更改为幂函数？

我的要求是将运算符更改为幂函数例如 1 Input B 2 Output power B 2 2 B 2 T 2 X Output power B 2 我写了下面的正则表达式来解决这个问题 rx r a zA Z0 9 a zA Z0
正则表达式不等于字符串

我用正则表达式用头撞墙我正在尝试定义一个表达式该表达式完全排除此文本 System 不区分大小写但可以包含系统这个词提供的不仅仅是这个例子系统无效系统无效系统无效系统无效 asd 系统有效 asd 系统 asd
将上部字符转换为下部字符，将下部字符转换为上部字符（反之亦然）[重复]

这个问题在这里已经有答案了我需要将某些字符串中的所有较低字符转换为较高字符并将所有较高字符转换为较低字符例如 var testString heLLoWorld 应该 HEllOwORLD 转换后在不保存临时字符串的情况下实现此目的
Javascript 正则表达式来匹配正则表达式

我正在研究一个特殊的正则表达式来匹配 javascript 正则表达式现在我有这个正则表达式工作 i g m 例如 foo match i g m gt foo foo undefined foo i match i g m gt foo
通过间接引用列来修改数据框中的某些值

我正在整理一些数据我们将失败的数据分类到垃圾箱中并按批次计算每个分类箱的有限产量我有一个描述排序箱的元表这些行按升序测试顺序排列一些排序标签带有非语法名称 sort tbl lt tibble tribble weight lab
将数据框中的每个 x 个字符拆分为字符串

我知道这里有一些关于每隔一段时间分割一个字符串的答案nth字符例如this one https stackoverflow com questions 23208490 split each character in r and this
将绘图调用拆分为多个块

我正在编写一个图的解释其中我基本上将在第一个块中创建图然后描述该输出并在第二个块中添加一个轴然而似乎每个块都会强制一个新的绘图环境因此当我们尝试使用以下命令运行块时会出现错误axis独自的观察 output html docu
kernlab 中 SVM 训练之外的核矩阵计算

我正在开发一种新算法该算法可以生成修改后的核矩阵以用于 SVM 训练但遇到了一个奇怪的问题出于测试目的我比较了使用 kernelMatrix 接口和普通内核接口学习的 SVM 模型例如 Model with kernelMatri
如何使用正则表达式匹配模式的最后一次出现

我有一个像这样的字符串 token1 token2 我要匹配 token2 使用正则表达式它应该匹配的其他可能的情况是 token1 应该匹配最后一个 token1 应该匹配最后一个 token1 token2应该匹配 token2
JavaScript：是否有完全支持环视的正则表达式库？

As JavaScript 的内置正则表达式库 https developer mozilla org en US docs Web JavaScript Guide Regular Expressions不支持向后看 http www r
在Python中检测re（regexp）对象

我想知道什么是正确的 pythonic 向后和向前兼容的方法如何检查对象是否已编译re object isinstance方法不能轻易使用而生成的对象声称是 sre SRE Pattern object gt gt gt import r
使用先前的反向引用作为命名捕获组的名称

有没有办法使用对先前捕获组的反向引用作为捕获组的名称命名捕获组这可能不可能如果不可能那么这就是一个有效的答案下列 data description some description preg match data matches p
使用 R 选择第一个非 NA 值

df lt data frame ID c 1 1 1 2 3 3 3 test c NA 5 5 6 4 NA 7 3 NA 10 9 我想创建一个名为 value 的变量它是每个单独 ID 测试的第一个非 NA 值对于只有NA的个体
正则表达式拆分数字和字母组，不带空格

如果我有一个像 11E12C108N 这样的字符串它是字母组和数字组的串联如何在中间没有分隔符空格字符的情况下分割它们例如我希望分割结果为 tokens 0 11 tokens 1 E tokens 2 12 tokens 3 C
r 中训练和测试数据的最小最大缩放/归一化

我正在创建一个函数它将训练集和测试集作为其参数最小最大缩放标准化并返回训练集并使用这些same最小值和最小最大范围的值标准化并返回测试集到目前为止这是我想出的功能 min max scaling lt function tr
在 R 中使用 lapply 绘制多个数据帧

我正在尝试使用 lapply 函数绘制多个数据帧每个数据帧一个图但是尽管有关此主题的所有帖子我都找不到答案因为我不断收到错误图的输出列表为空我的数据结构如下 df1 lt mtcars gt group by cyl gt tal
朴素贝叶斯分类器仅基于先验概率做出决策

我试图根据推文的情绪将推文分为三类买入持有卖出我正在使用 R 和包 e1071 我有两个数据框一个训练集和一组需要预测情绪的新推文训练集数据框 text sentiment this stock is a good buy Bu
使用 Shiny 发布平行坐标图表时出现“错误：路径[1]="”：没有这样的文件或目录”

我有一个似乎很常见但我还没有找到解决方案的问题当尝试使用 rCharts Parcoords 发布 Web 应用程序时出现以下错误错误路径 1 没有这样的文件或目录奇怪的是该应用程序在我的笔记本电脑上运行得很好下面是我正在使用
ddply 和aggregate 之间的区别

有人可以通过以下示例帮助我了解聚合和 ddply 之间的区别数据框 mydat lt data frame first rpois 10 10 second rpois 10 10 third rpois 10 10 group c re
在python中，如何仅搜索所选子字符串之前的一个单词

给定文本文件中的长行列表我只想返回紧邻其前面的子字符串例如单词狗描述狗的单词例如假设有这些行包含狗 hotdog big dog is dogged dog spy with my dog brown dogs 在这种情况下期望

随机推荐

如何处理 Java BigDecimal 中的舍入错误

我正在与开源项目 axil 合作该项目在java应用程序内部实现了脚本引擎并且在尝试利用BigDecimal的舍入时遇到了一个主要的障碍 BigDecimal 似乎正在将我的输入转换为科学记数法然后将我传递的精度应用于数字的 SN 表
使用 C 编译器选项捕获浮点异常 [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案 Gfortran有得心应手的 ffpe trap编译器选项但没有类似的选项可用gcc 我隐约意识到他们处理异常的方式不同但不足以知道为什
在 Firefox 中拖动时，输入类型=范围上的 onchange 事件不会触发

当我玩的时候
如何将多个注释合并为一个注释？

我有两个来自框架的注释我经常在同一字段上使用这两个注释因此我试图创建一个包含两者的组合注释但我不知道这是否可能现有注释我无法控制 Target ElementType PARAMETER ElementType METHOD
分享 mkmapview 截图

我有一张地图上面有很多东西我想以图片屏幕截图的形式分享然而据我所知该地图 Apple 的 iOS 6 和 Google 的 iOS 5 均受版权保护我不能简单地这样做我想到了 Google Static Maps API 但
OpenID Connect 和 IDP 发起的 SSO

我有一个作为服务提供商的应用程序是否可以使用 OpenID Connect 实施 Idp 发起的 SSO 对于 Idp 发起的 SSO 来说似乎只能使用 SAML 对吗或者有没有办法让 OpenID Connect 也能工作我正在考
Gridview 在 1 列上禁用编辑 asp.net

我正在使用 gridview 编辑来编辑 gridview 中的值当我按下编辑时所有列都可以编辑我希望不允许编辑其中一列我有什么办法可以做到这一点吗这是我的 aspx 代码
将 JSON 数组转换为
- 元素
我正在 Microsoft Power BI 中创建自定义视觉对象创建 api 使用 typescript 和 d3 库我也在使用jquery 我正在尝试创建一个分层树来表示拖入视觉对象的字段因此树的深度是在运行时决定的所以它不知道
如何通过单击按钮来切换 jTabbedPane 中的选项卡？

我有两个 JTabbedPane JTabbedPane1 和 2 如何按下 JTabbedPane2 中的按钮来显示 JTabbedPane1 这是 JTabbedPane 的代码 public class TabbedPane exte
如何在 R 中分组时创建排名列

我正在使用 R 我想创建一个显示序列或排名的列同时按两个因素 hhid 和句点进行分组例如我有这个数据集 hhid perid 1000 1 1000 1 1000 1 1000 2 1000 2 2000 1 2000 1 200
PHP 高级作业队列

我正在使用 cron 制作一个一天包含 2000 个作业的脚本意味着这是服务器端并自动完成所有作业但该作业需要同时运行 10 个或指定数量的作业作业就像你看到 IDM 互联网下载管理器一样有一个队列功能它一次运行多个作业如
VBA 用户窗体保存文本框。在组合框中选择名称时将值保存到 Excel 工作表

我提前为发布相同的问题表示歉意但我不知道如何添加额外的代码示例如果有办法在上一个问题中添加额外的代码请告知基本上我试图将一些文本框值保存到我的工作表中以便在用户窗体关闭并重新打开时可以重新启动它们这就是我到目前为止所拥有的但
LINQ：如何在 linq 中动态使用 ORDER BY，但前提是变量不是 string.empty 或 null

我正在使用 LINQ2SQL 它运行得很好但是根据 C 中变量类型字符串的值我需要在查询中使用 Order By 或不使用 order by 如果 C 字符串不为 null 或空那么我想对字符串变量的内容进行排序如果 C 字符串
使用 JavaScript 创建和复制/复制选择/选项列表菜单

我有一个select列表菜单
如何表示循环中不再有字符串 ss 输入 while (cin >> ss)

我使用 cin 从输入流中读取单词就像 int main string word while cin gt gt word do sth on the input word perform some other operations 代码
无法检索正则表达式匹配结果 - MFC / C++

我正在阅读 HTML 页面并尝试检索其中的特定字符串我有以下代码 std string str test GetString someString the string i have checked it it s basically a
Pandas系列不区分大小写的匹配和值之间的部分匹配

我有以下操作来添加状态显示一个数据帧列的列中的任何字符串出现在另一个数据帧的指定列中的位置它看起来像这样 df one Status np where df one A isin df two A Matched Unmatched 如
有哪些工具可以测试SQL语句的性能？

在对性能永无休止的探索中以及我自己的重击经历我了解到一些可能会拖慢 SQL 语句性能的事情强迫性子查询障碍进行疯狂的类型转换并将它们嵌套到遗忘中 Group By 对所述疯狂类型转换的聚合函数fldID 所在位置从我的 500 万
有没有更好的方法在 XHTML 1.0 Transitional 中以语义方式编写常见问题解答？

以下使用 XHTML 1 0 的常见问题解答代码段将无法在W3C 验证器 https validator w3 org 我将问答插入到定义列表中以便在语义上维护问答关系问题是问题可以是多个段落还有 dt 标签至少在 XHTML 1
从向量中删除相似但更长的重复项

对于数据库清理我有一个向量例如菜肴我想删除基础菜肴的所有变体只保留基础菜肴举例来说如果我有 dishes lt c DAL BHAT DAL BHAT SPICY DAL BHAT WITH EXTRA RICE HAMBU

从向量中删除相似但更长的重复项

从向量中删除相似但更长的重复项 的相关文章

随机推荐

热门标签

从向量中删除相似但更长的重复项的相关文章