在名称之间放置逗号

2024-01-01

我试图找出数据框中是否出现某些模式。

假设我有以下“模式词典”（注意“james”与“jamesj”）：

patterns <- c("john", "jack", "james", "jamesj", "jason")

我的实际数据框（“date_frame”）如下所示：

  id                                              names
1  1                                     johnjack jameS
2  2                             john/james, jasonjames
3  3                                    peter_jackjason
4  4                                   jamesjasonj jack
5  5 jamesjjason, johnjasonjohn , jason-jack sam _ peter

我试图产生的最终结果应该如下所示：

  id                                                         names
1  1                                             john, jack, james
2  2                                     john, james, jason, james
3  3                                            peter, jack, jason
4  4                                          jamesj, asonj,  jack
5  5 jamesj, jason, john, jason, john , jason, jack,  sam ,  peter

我尝试在这里查看这篇文章（R：在输出的每个元素后面插入逗号 https://stackoverflow.com/questions/56103591/r-insert-comma-after-each-element-from-the-output）并尝试了那里提供的答案：

> data_frame$parsed_names = dput(data_frame$names)



  id                                                         names                                                  parsed_names
1  1                                             john, jack, james                                             john, jack, james
2  2                                     john, james, jason, james                                     john, james, jason, james
3  3                                            peter, jack, jason                                            peter, jack, jason
4  4                                          jamesj, asonj,  jack                                          jamesj, asonj,  jack
5  5 jamesj, jason, john, jason, john , jason, jack,  sam ,  peter jamesj, jason, john, jason, john , jason, jack,  sam ,  peter

但这并不符合我想要的。

然后我在这里尝试了这篇文章（在 r 中的某些单词后面的文本字符串中插入逗号 https://stackoverflow.com/questions/54078683/insert-commas-in-text-string-after-certain-words-in-r）并尝试了那里提供的答案：

library(gsubfn)

data_frame$parsed_names = gsubfn("\\w+", as.list(setNames(paste0(patterns, ","), patterns)), 
  format(data_frame$names))

 data_frame
  id                                                         names                                                         parsed_names
1  1                                             john, jack, james     john,, jack,, james,                                            
2  2                                     john, james, jason, james    john,, james,, jason,, james,                                    
3  3                                            peter, jack, jason      peter, jack,, jason,                                           
4  4                                          jamesj, asonj,  jack      jamesj,, asonj,  jack,                                         
5  5 jamesj, jason, john, jason, john , jason, jack,  sam ,  peter jamesj,, jason,, john,, jason,, john, , jason,, jack,,  sam ,  peter

有人可以告诉我如何解决这个问题吗？

谢谢你！

这是一个有点临时的答案，但它满足您的要求（没有变化patterns向量）：

library(tidyverse)
patterns <- c("john", "jack", "james", "jamesj", "jason")

data_frame %>% 
  separate_rows(names) %>% 
  mutate(name = str_split(tolower(names), paste0("(?<=(", paste0(patterns, collapse = "|"), "))"))) %>% 
  unnest(name) %>% 
  filter(nzchar(name)) %>% 
  group_by(j = cumsum(!(name == "j"))) %>% 
  summarise(name = paste(name, collapse = ""),
            id = unique(id)) %>% 
  group_by(id) %>% 
  summarise(name = toString(name))

## A tibble: 5 × 2
#     id name                                                     
#  <dbl> <chr>                                                    
#1     1 john, jack, james                                        
#2     2 john, james, jason, james                                
#3     3 peter, jack, jason                                       
#4     4 jamesj, asonj, jack                                      
#5     5 jamesj, jason, john, jason, john, jason, jack, sam, peter

之前的回答：

在模式向量中添加其他可能的名称，并对向量重新排序，以便jamesj优先于james，然后您可以使用str_extract_all.

library(stringr)
library(dplyr)

patterns <- c("john", "jack", "jamesj", "james", "jason", "asonj", "peter", "sam")
patterns <- patterns[order(nchar(patterns), decreasing = T)]

data_frame %>% 
  mutate(names = lapply(str_extract_all(tolower(names), paste(patterns, collapse = "|")), toString))

#  id                                                     names
#1  1                                         john, jack, james
#2  2                                 john, james, jason, james
#3  3                                        peter, jack, jason
#4  4                                       jamesj, asonj, jack
#5  5 jamesj, jason, john, jason, john, jason, jack, sam, peter

data

data_frame <- tribble(
  ~id, ~names,
  1, "johnjack jameS",
  2, "john/james, jasonjames",
  3, "peter_jackjason",
  4, "jamesjasonj jack",
  5, "jamesjjason, johnjasonjohn , jason-jack sam _ peter"
)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

regex

Text

在名称之间放置逗号的相关文章

R：表格格式

我有一个包含以下列的 Excel 文件 Column1 Column2 Column3 ab bb 0 5 ab bc 0 1 ab cd 0 7 ab dd 0 8 ac bb 0 2 ac bg 0 8 ac ee 0 8 ac dd
R 中的字符串作为函数参数

数据框chocolates列出了糖果的类型以及每种糖果的一组评级 ID sweetness filling crash snickers 0 67 0 55 0 40 milky way 0 81 0 53 0 56 我正在编写一个函数它
带 R 的多彩标题

我想添加颜色某些词在我的图表标题中我已经能够在这里找到一些先例 http blog revolutionanalytics com 2009 01 multicolor text in r html 具体来说我希望用撇号括起来的文本在
正则表达式匹配bash变量

我正在尝试修改 bash 脚本当前脚本包含 print div class 1 div Where 1可能看起来像 Apprentice Historian Level 1 Historian Level 4 Master Histori
Javascript正则表达式用于字母字符和空格？ [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我需要一个
如何从R arrow中的feather文件中读取列名和元数据？

现已取代独立R 的羽毛库 https github com wesm feather有一个函数叫做feather metadata 允许从磁盘上的羽毛文件中读取列名称和类型而无需打开它们当在 R 中加载羽毛文件时这对于仅选择特定列很
为什么 \K 似乎消耗了基本 R 的 gsub 中的一个字符

这是一个示例字符串 bcadefgh 我希望我能匹配除了 cad 具有以下模式 wa w K w 如果我想替换所有不是的东西 cad 我可以用gsub 像这样gsub wa w K w bcadefgh perl TRUE 但是这输出 ca
捕获段错误、内存未映射错误

我试图在 R 中找到 1347 x 209974 矩阵的列的相关性每次我这样做使用一个简单的命令cor matrix 我收到消息 caught segfault address 0xffffffffd058abf8 cause memo
REGEX (javascript) - 允许字母数字字符和不在第一个位置的特殊字符

我想设计一个正则表达式允许使用字母数字字符以及其他字符只要它们不在第一个位置即可例子 VALID Test VALID Hello123 VALID 456 Hi VALID 456 789 VALID Hi 777 VALID 33
在多行中打印带有列名称的 R 数据框

我有一个带有长列名称的 R 数据框所以当我打印数据框时它太宽了有没有一种简单的方法可以将数据框打印到屏幕上并且列名出现在多行中我知道我可以缩短名字但我不想这样做当奥斯卡的答案被接受时我想这可能真的是一个答案不幸的是这只是复
使用 URL 参数 ID 编号范围进行 HTACCESS 重定向

我希望有人可以提供帮助因为事实证明这很难弄清楚我试图通过 HTACCESS 和 mod rewrite 重定向许多 URL 参数 ID 值在特定范围内从 1 到 7603 的页面这是我到目前为止所拥有的
是否存在永远不会匹配任何字符串的正则表达式？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
ggplot 直方图相对于轴的位置不正确

我试图这样绘制直方图 Todo lo haremos con base en un variable aleatoria Uniforme 0 1 set seed 26 n 10000 U lt runif n n Supongamos
Python 正则表达式部分匹配或“hitEnd”

我正在编写一个扫描器因此我将任意字符串与正则表达式规则列表进行匹配如果我可以模拟 Java hitEnd 功能不仅知道正则表达式何时不匹配还知道何时匹配这将非常有用 can t匹配当正则表达式匹配器在决定拒绝输入之前到达输入末尾
R 包与 Rcpp 的链接错误：“未定义符号：LAPACKE_dgels”

我正在创建一个 R 包 lapacker 以使用 R API 头文件 R ext Lapack h 为 R 提供和使用的内部 LAPACK 库仅具有双精度和双复数提供 C 接口源代码 https github com ypan1988
在 Ubuntu Lucid 中从二进制安装 R 包

我已经使用以下命令在 Ubuntu Lucid 中安装了 R sudo aptitude 安装 r base 当我尝试 install packages 时它似乎会下载源代码然后花费很长时间来编译它我怎样才能像我在 Windows 上
捕获 XSS（跨站脚本）攻击的最佳正则表达式（Java 中）？

杰夫实际上在净化 HTML http refactormycode com codes 333 sanitize html 但他的示例是用 C 编写的而我实际上对 Java 版本更感兴趣有人有更好的 Java 版本吗他的示例是否足以直
我想找到 C# 代码中所有后面没有括号的 if 语句。通过正则表达式

我想找到所有if声明和for后面没有大括号的语句当你在一个文件中写入一行时if声明您大多不会将其括在大括号中所以我想找到所有这些if and for声明请帮忙就像我想捕捉这个声明 if childNode Name B return
如何一次导入多个 .csv 文件？

假设我们有一个包含多个 data csv 文件的文件夹每个文件包含相同数量的变量但每个文件来自不同的时间 R 中有没有办法同时导入它们而不必单独导入它们我的问题是我有大约 2000 个数据文件需要导入并且必须使用以下代码单独导入
使用 purrr、broom 从许多单变量模型中获得整洁的输出

我有一个由二进制结果列组成的数据框 y 和多个独立的预测列 x1 x2 x3 我想运行许多单变量逻辑回归模型例如y x1 y x2 y x3 并将每个模型的指数系数比值比 95 置信区间和 p 值提取到数据框标题的行中在我看来使用

随机推荐

LMDB 文件以及它们如何用于 caffe 深度学习网络

我对深度学习很陌生在使用 caffe 深度学习网络时遇到一些问题基本上我没有找到任何文档来解释如何解决我现在正在处理的一系列问题请让我先解释一下我的情况我有数千张图像我必须对它们进行一系列预处理操作对于每个预处理操作我必须将
使用 iPhone TrueDepth 传感器检测真人面部与照片？

如何使用 iPhone 捕获的深度数据true depth相机可以区分真实的人类 3D 脸部和相同的照片吗要求是使用它进行身份验证我做了什么创建了一个示例应用程序来获取连续的流AVDepthData镜头前的事物 Theory 除了通过
Alpine 不可满足的约束：缺少包

我正在尝试创建一个基于alpine 3 7 但是我在安装一些软件包时遇到错误apk add Example ERROR unsatisfiable constraints apache2 suexec missing required by
从数据库加载 26MB 文本数据消耗 258MB 的 JVM 堆

基于 VisualVM 启动时本地运行的应用程序 Spring JPA Hibernate Sybase 12 Webapp 会消耗 256MB 堆空间中的 40MB 当我触发返回 70 000 多行文本数据无 blob 的搜索时堆空
Java 字符串按非字母字符拆分

我想将一个字符串沿着非字母字符拆分为一个字符串数组例如 Here is an ex mple gt Here is an ex mple 我尝试使用String split 字符串正则表达式 http docs oracle com ja
无法找到 NSEntityDescription CoreData Swiftui 的唯一匹配项

当我使用我的应用程序时有时我会出现一个错误它似乎是随机的或者我没有弄清楚确切的时间然后我的所有列表都是空的就像 CoreData 中什么都没有一样但是如果我关闭我的应用程序并重新打开它列表就会毫无问题地出现我在堆栈溢出上搜
根据条件将脚本添加到 ScriptManager

我有一个棘手的场景我只想在某些条件下添加 ScriptManager scriptreference 如下所示
与的 WebSocket 连接失败：WebSocket 握手期间出错：意外的响应代码：521

我在连接套接字服务器时遇到问题 WebSocket connection to
此示例中的 printf 语句是否调用未定义行为？

源自这个问题 https stackoverflow com questions 53747225 p is a pointer to a structure what do all these code snippets do 53747
在哪里关闭java的PreparedStatements和ResultSets？

考虑代码 PreparedStatement ps null ResultSet rs null try ps conn createStatement myQueryString rs ps executeQuery process th
将数分解为素数

我正在尝试创建一个用于分解素数的帕斯卡程序即 16 2 2 2 2 210 2 3 5 7 我应该输入一个数字然后返回素数分解我不明白数学意义上的解决方案有人可以向我解释这个算法或伪代码只要我明白我正在创建的编程并不是真正的问题
管道内的吞咽情况

如何在 Gulp 管道内执行条件以输出到不同的目的地 g task sass function return g src sources sass pipe changed output css pipe sass style compre
JavaFX 折线图颜色差异

I have a Line Graph in JavaFx with two Lines and I want to color the Space between the Lines I Searched the Internet but
关于高分持久性的建议（iPhone、Cocoa Touch）

我很好奇什么是管理高分 plist 文件读写的更好方法我的高分班是 interface HighScore NSObject
即使 chrome 关闭也能运行的 Chrome 扩展

我有一个 chrome 扩展当 chrome 打开时运行良好问题出在 chrome 应用程序关闭时我需要使扩展程序始终运行无论 chrome 浏览器打开还是关闭有什么方法可以让扩展程序即使在 chrome 关闭时也能运行吗这正是
为什么“bodyPart.isMimeType("text/plain")”给出错误“无法加载主体结构”？

我正在使用 Java 创建一个应用程序以通过 Java 从我的 GoDaddy 网络邮件读取邮件我为此使用了 javax mail 当我调试程序时它在以下行给出错误 bodyPart isMimeType text plain 出乎意
C++11 编写模板以选择更大整数类型的方法？

在 C 11 的编译时在一个带有 2 个模板参数的模板函数中这两个模板参数都必须是无符号整数类型我希望局部变量的类型为两个模板参数中具有更多位的一个的类型在 C 03 中我可能会写这样的东西 template
为什么 Spring 4 在一个上下文中只允许有一个 TaskScheduler？

我们有一个 Spring Web 应用程序正在从 Spring 3 2 移植到 Spring 4 当 Web 应用程序启动时我们的应用程序有多个子上下文组装到单个运行时上下文中我们在两个子上下文中使用单独的 TaskScheduler
liquibase 的枚举数据类型

我目前正在处理 liquibase xml 文件来创建表 table a 我的领域之一是
在名称之间放置逗号

我试图找出数据框中是否出现某些模式假设我有以下模式词典注意 james 与 jamesj patterns lt c john jack james jamesj jason 我的实际数据框 date frame 如下所示 id na

在名称之间放置逗号

在名称之间放置逗号 的相关文章

随机推荐

热门标签

在名称之间放置逗号的相关文章