使用 R 查找字符串中的重复模式

2023-11-24

我有一个很大的文本,其中包含以下表达式:"aaaahahahahaha that was a good joke".处理后,我想要"aaaaahahahaha"消失,或者至少将其更改为简单"ha".

目前,我正在使用这个:

gsub('(.+?)\\1', '', str)

当带有模式的字符串位于句子的开头而不是位于其他任何地方时,此方法有效。所以:

str <- "aaaahahahahaha that was a good joke"
gsub('(.+?)\\1', '', str)
#[1] "ha that was a good joke"`

But

 str <- "that was aaaahahahahaha a good joke"
 gsub('(.+?)\\1', '', str)
#[1] "that was aaaahahahahaha a good joke"

这个问题可能与此相关:在python中查找重复模式,但我找不到 R 中的等价物。

我假设非常简单,也许我错过了一些微不足道的东西,但由于正则表达式不是我的强项,而且我已经尝试了很多不起作用的事情,我想知道是否有人可以帮助我。问题是:如何在 R 中查找并替换字符串中的重复模式?

在此先感谢您的时间。


\b(\S+?)\1\S*\b

使用这个。查看演示。

https://regex101.com/r/sJ9gM7/46

For r use \\b(\\S+?)\\1\\S*\\b with perl=TRUE option.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 R 查找字符串中的重复模式 的相关文章

  • 正则表达式字符串中第一个和最后一个非点的位置

    我希望找到字符串的第一个和最后一个非点元素的位置 理想情况下我想这样做regex在基地R 我已经写过R解决问题的代码 不过 我对一个感兴趣regex解决方案 感谢您的任何建议 这是一个示例数据集和R代码以获得所需的结果 此代码拆分字符串并使
  • 使用 pracma::findpeaks 识别持续峰值

    我的语法有问题peakpat内的选项findpeaks内的函数pramcaR 包 v 2 1 1 我使用的是 R 3 4 3 x64 Windows 我希望该函数能够识别可能有两个重复值的峰值 并且我相信该选项peakpat这就是我能做到的
  • 文件名的正则表达式模式

    如果文件名符合以下条件 用户可以将文件放入服务器 它必须以 abc 开头 然后是一个点和一个数字 Valid file names abc 2344 abc 111 Invalid abcd 11 abc ab12 正则表达式是什么 我不能
  • 将数据框中的每个 x 个字符拆分为字符串

    我知道这里有一些关于每隔一段时间分割一个字符串的答案nth字符 例如this one https stackoverflow com questions 23208490 split each character in r and this
  • 如何使用 usmap 标记数字而不是名称?

    我知道 usmap 有一个选项label in plot usmap 我想标记一些数字 而不是状态名称 我想 usmap 中应该有与州质心坐标相关的数据 但我不知道如何找到它 如果我能得到 坐标然后我可以用它来标记数字geom text 这
  • 绘制点之间的所有线

    我有以下 R 代码 x lt c 0 01848598 0 08052353 0 06741172 0 11652034 y lt c 0 4177541 0 4042247 0 3964025 0 4074685 d lt data fr
  • 如何使用正则表达式匹配模式的最后一次出现

    我有一个像这样的字符串 token1 token2 我要匹配 token2 使用正则表达式 它应该匹配的其他可能的情况是 token1 应该匹配 最后一个 token1 应该匹配 最后一个 token1 token2应该匹配 token2
  • R 中的快速 QR 分解

    我有大量矩阵 需要对其执行 QR 分解并存储生成的 Q 矩阵 进行归一化 以便 R 矩阵在其对角线上具有正数 除了使用之外还有其他方法吗qr 功能 这是工作示例 system time Parameters for the matrix t
  • .htaccess 异常导致主目录出现问题

    这是我的目录结构 localhost or livehost app bootstrap public vendor code demo 这是我的 htaccess
  • 为什么不能用反斜杠结束原始字符串? [复制]

    这个问题在这里已经有答案了 我在这里很困惑 尽管原始字符串会转换每个 to 但是当这个 最后出现它会引发错误 gt gt gt r so m e te xt so m e te xt gt gt gt r so m e te xt Synt
  • twitterR 和 ROAuth R 软件包安装

    我在安装 CRAN 上的 twitteR 和 RAOuth 软件包时遇到一些问题 我尝试了几种不同的方法 在 Windows 下使用源代码 在 Ubuntu 下使用 RStudio 我尝试了以下命令 sudo apt get install
  • 在字符串中间添加一个字符

    可能有一个简单的解决方案可以解决这个问题 但会引起面部表情 我将时间存储为 4 个字符长的字符串 即 1300 我试图将该字符串显示为 13 00 我觉得必须有一个比我现在正在做的更优雅的解决方案 我目前有 startTime get fi
  • 正则表达式匹配整个单词[重复]

    这个问题在这里已经有答案了 我在 stackoverflow 上看到了很多关于使用正则表达式进行全词匹配的例子 我有以下情况 我想用 www xyz com 替换 www abc com string RetVal I am going t
  • REgex从oracle中的字符串中获取数字

    我有以下格式的字符串 阿克拉姆 88 jamesstree 20140418 阿克兰 8 约翰街 20140418 阿克兰 888 johnstreet 20140418 现在我只想检索 88 8 和 888 值 我为此编写了以下查询 SU
  • 检查条件并通过 Zend 中的 Regex 识别 url 中的模式

    我正在实现 Zend Regex 路由 并且必须对 url 执行多次检查 例如 如果这是我的网址 http localhost application public index php module controller action 这是
  • Python:字符串不会转换为浮点数[重复]

    这个问题在这里已经有答案了 我几个小时前写了这个程序 while True print What would you like me to double line raw input gt if line done break else f
  • 使用 Shiny 发布平行坐标图表时出现“错误:路径[1]="”:没有这样的文件或目录”

    我有一个似乎很常见但我还没有找到解决方案的问题 当尝试使用 rCharts Parcoords 发布 Web 应用程序时 出现以下错误 错误 路径 1 没有这样的文件或目录 奇怪的是 该应用程序在我的笔记本电脑上运行得很好 下面是我正在使用
  • 更改闪亮 R 中的默认浏览器

    我在 RStudio 中使用 01 hello 虽然在 IE 中默认打开程序时它不会显示直方图 但即使在 Chrome 中 滑块也不起作用 我无法滑动条形图并看到直方图中的变化 如何更改 R 中的默认浏览器 以便闪亮启动 Chrome 而不
  • C# 中最小化字符串长度

    我想减少字符串的长度 喜欢 这串 string foo Lorem ipsum dolor sit amet consectetur adipiscing elit Aenean in vehicula nulla Phasellus li
  • 如何修复:“无法解析类型 java.lang.CharSequence。它是从所需的 .class 文件间接引用的”消息? [复制]

    这个问题在这里已经有答案了 我正在尝试使用这个字符串 amountStr amountStr replace replace replace 但我收到一条错误消息 我知道我收到的错误消息是因为我刚刚发布的字符串已过时 所以我想知道该字符串的

随机推荐

  • 为什么 List 不是 IEnumerable

    编辑 我很抱歉 最初的问题措辞含糊不清 我没有得到我正在寻找的答复 对于任何继承自类 Y 的类 X new List
  • 在C中使用宏定义数据结构

    我试图理解使用宏定义数据结构操作的概念 以下代码是使用 FreeBSD 中内置列表库的简单示例 在库中 所有操作都定义为宏 我也在其他几个库中看到了这种方法 我可以看到这有一些优点 例如 能够使用任何数据结构作为列表中的元素 但我不太明白这
  • ES6 - 在类中调用静态方法

    我有这个类 它对静态方法进行内部调用 export class GeneralHelper extends BaseHelper static is env return config get env name env static isP
  • 利用多核的单线程程序

    Java程序的单线程可以自动使用CPU上的多个核心吗 Java程序的单线程可以自动使用CPU上的多个核心吗 是和不是 单线程Java程序将使用多个线程 因为GC JMX 终结器和其他后台线程可以在不同的CPU 无论是CPU还是核心 中运行
  • Javascript:自己的键函数中的对象文字引用而不是“this”

    在作为该文字一部分的函数中引用对象文字是否有问题 它似乎工作得很好 但我想确保没有其他影响 这是我正在谈论的一个例子 代替 var obj key1 it key2 function return this key1 works alert
  • JQuery 获取以字符串“whatever-”开头的元素类名的其余部分

    我有 js 缓存名称以 whatever 开头的类 class whatever class whatever 但我现在想做的是获取名称的其余部分 例如 在 whatever 9 的情况下 我想获取 9 我不知道该怎么做 你能帮助我吗 Tr
  • 如何在Expression.Or中设置2个以上的Expression

    我想创建一个包含超过 3 4 个表达式的查询 或者 但是表达式 或者只是让我在其中添加两个表达式 if string IsNullOrEmpty keyword query Add Expression Or Expression Like
  • Div 高度不会调整以适应内容

    如何使 div 水平和垂直居中并调整高度以适应内容 fiddle 这是我的 html 代码 div class sprite div div class content span close span div class centered
  • 在Qt中添加自定义字体

    有没有办法向 Qt 添加自定义字体 例如 Console Font 如何 我们如何将其设置为文本编辑器 QPlainTextEdit QTextEdit 等 Thanks Qt 使用您的窗口系统作为字体提供程序 您可以使用以下命令找到所有可
  • 如何从discord.py 中的文本通道获取所有消息的数组?

    我有频道对象 并且我已经尝试过 mess channel history limit 200 but mess is a HistoryIterator对象并且其内不包含任何消息mess messages对象 大小 0 频道中有消息 所以不
  • 如何获取BitBucket分支url?

    我有一个 bitbucket 存储库 我知道我可以单击 操作 选项卡 然后单击 克隆 以获取存储库的 http url 现在 我在存储库中有多个分支 并且我计划使用 Jenkins CI 从特定分支进行构建 有没有办法获取我的存储库中特定分
  • 如何将 powerpivot 数据作为表格复制到 Excel 工作簿中?

    我在 powerpivot 中有已修改的数据 我想将其作为常规表 而不是数据透视表 放入工作簿中 我需要这个 以便我可以使用该表来运行同一工作簿中另一个工作表中的一些 vlookups 我找到了这个答案 link我将尝试进行总结 而不会进行
  • JQuery 数据表行高

    我有一个页面 人们可以输入名字 姓氏 电话 电子邮件和种族 然后单击 添加 它会在数据表中添加一个条目 问题是点击添加后表格显示如下 如何调整每行的高度以使其正确显示 这是我的表的 html 代码 div div
  • 如何更改 JSF 2.0 中的语言环境?

    在我的应用程序中 用户应该能够切换区域设置 用于在页面上呈现文本的语言 大量教程都在使用 FacesContext getCurrentInstance getViewRoot setLocale 例如 http www mkyong co
  • Ionic 启动器无法在 crosswalk-lite 上运行:无法启动活动 ComponentInfo

    我正在使用 crosswalk lite 启动 ionic 应用程序 但它无法在真实设备和 genymotion 上运行 ionic start myApp tabs npm install bower install ionic serv
  • 查找小于其右侧某个元素的每个元素

    我需要找到一个向量中小于其后的多个元素之一的元素 在循环中很容易做到 x some vector values for m 1 length x if any x m 1 end gt x m do such and such end en
  • 为什么我的 HTTP Origin 标头与 request.base_url 不匹配以及如何修复?

    你好 这是我在这里的第一篇文章 我已经尝试调试这个问题几天了 但无法弄清楚 当我向 Rails api 发出发布请求时 我收到了以前从未见过的错误 Started POST owners for 1 at 2021 01 12 11 24
  • 图像旋转中的背景透明度()

    自过去 2 天以来 我尝试使用 imagerotate PHP GD 函数旋转图像后为背景添加透明度 但是 令我非常失望的是 它根本不起作用 它只是在其背后提供黑色背景 这是我的代码 patchImageS image png the im
  • 如何为所有屏幕的 iPhone 应用程序添加垂直滑动手势?

    我想向我的应用程序添加一个手势 以便当用户垂直滑动时它会触发一个方法来执行某些操作 滑动可以向上或向下 我从来没有用手势做过任何事情 所以这是我第一次使用手势 而不是 UITableView 中包含的用于删除行的手势 另一个问题是我的大多数
  • 使用 R 查找字符串中的重复模式

    我有一个很大的文本 其中包含以下表达式 aaaahahahahaha that was a good joke 处理后 我想要 aaaaahahahaha 消失 或者至少将其更改为简单 ha 目前 我正在使用这个 gsub 1 str 当带