使用 R 中的 stringr 提取特定单词周围的单词样本

2023-11-24

我在 SO 上看到了一些关于这个主题的类似问题，但它们的措辞似乎不正确（example）或用不同的语言（example).

在我的场景中，我认为所有被空白包围的东西都是一个单词。表情符号、数字、不是真正单词的字母串，我不在乎。我只想获取找到的字符串的一些上下文，而不必读取整个文件来确定它是否是有效的匹配。

我尝试使用以下命令，但如果您有一个长文本文件，则需要一段时间才能运行：

text <- "He served both as Attorney General and Lord Chancellor of England. After his death, he remained extremely influential through his works, especially as philosophical advocate and practitioner of the scientific method during the scientific revolution. Bacon has been called the father of empiricism.[6] His works argued for the possibility of scientific knowledge based only upon inductive and careful observation of events in nature. Most importantly, he argued this could be achieved by use of a skeptical and methodical approach whereby scientists aim to avoid misleading themselves. While his own practical ideas about such a method, the Baconian method, did not have a long lasting influence, the general idea of the importance and possibility of a skeptical methodology makes Bacon the father of scientific method. This marked a new turn in the rhetorical and theoretical framework for science, the practical details of which are still central in debates about science and methodology today. Bacon was knighted in 1603 and created Baron Verulam in 1618[4] and Viscount St. Alban in 1621;[3][b] as he died without heirs, both titles became extinct upon his death. Bacon died of pneumonia in 1626, with one account by John Aubrey stating he contracted the condition while studying the effects of freezing on the preservation of meat."

stringr::str_extract(text, "(.*?\\s){1,10}Verulam(\\s.*?){1,10}")

我假设有一种更快/更有效的方法来做到这一点，是吗？

尝试这个：

stringr::str_extract(text, "([^\\s]+\\s){3}Verulam(\\s[^\\s]+){3}")
# alternately, if you like " " more than \\s:
# stringr::str_extract(text, "(?:[^ ]+ ){3}Verulam(?: [^ ]+){3}")

#[1] "and created Baron Verulam in 1618[4] and"

更改里面的数字{}以满足您的需求。

您可以使用非捕获(?:)团体也是如此，尽管我还不确定这是否会提高速度。

stringr::str_extract(text, "(?:[^\\s]+\\s){3}Verulam(?:\\s[^\\s]+){3}")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

regex

r

stringr

使用 R 中的 stringr 提取特定单词周围的单词样本的相关文章

为什么 dplyr filter() 不能在函数内工作（即使用变量作为列名）？

使用 dplyr 函数对数据进行过滤分组和变异的函数基本管道序列在函数之外工作得很好这就是我使用真实列名称的地方将其放入一个函数中其中列名称是一个变量并且某些函数可以工作但有些函数则不能尤其是 dplyr filter 例如
Purrr::map_df() 删除 NULL 行

使用时purrr map df 我偶尔会传递一个数据框列表其中一些项目是NULL 当我做 map df 返回行数少于原始列表的数据框我想发生的事情是这样的map df calls dplyr bind rows 它忽略了NULL价值观
REgex从oracle中的字符串中获取数字

我有以下格式的字符串阿克拉姆 88 jamesstree 20140418 阿克兰 8 约翰街 20140418 阿克兰 888 johnstreet 20140418 现在我只想检索 88 8 和 888 值我为此编写了以下查询 SU
R 中的列乘以子字符串

假设我有一个数据框其中包含多个组件及其在多个列中列出的属性并且我想对这些列运行多个函数我的方法是尝试将其基于每个列标题中的子字符串但我无法弄清楚如何做到这一点下面是数据框的示例 Basket F Type 1 F Qty 1 F
将每列的值乘以 R 中另一个 data.frame 中的权重

我有两个data frames df and weights 代码如下 df看起来像这样 id a b d EE f 1 this 0 23421153 0 02324956 0 5457353 0 73068586 0 5642554 2
使用 sed 删除大括号对之间的所有内容

我有一个看起来像这样的字符串 B F blue master F red f k b f k b K black B F green 我想删除匹配的子字符串它可能包含也可能不包含相同顺序的其他子字符串我应该得到 master 作为最终输
r 中训练和测试数据的最小最大缩放/归一化

我正在创建一个函数它将训练集和测试集作为其参数最小最大缩放标准化并返回训练集并使用这些same最小值和最小最大范围的值标准化并返回测试集到目前为止这是我想出的功能 min max scaling lt function tr
只读取选定的列

谁能告诉我如何仅读取下面每年数据的前 6 个月 7 列例如使用read table Year Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2009 41 27 25 31 31 39 2
shell中如何分割字符串

我有一个变量作为 string ABC400p2q4 我怎样才能分开ABC400 and p2q4 我需要将它分成两个变量结果我得到 echo var1 ABC400 echo var2 p2q4 可以用任何字母字符代替 ABC 可以用任
相当于 min() 的 rowMeans()

我在 R 邮件列表上多次看到这个问题但仍然找不到满意的答案假设我有一个矩阵m m lt matrix rnorm 10000000 ncol 10 我可以通过以下方式获得每行的平均值 system time rowMeans m use
计算 R 中各列的唯一值

我正在尝试创建一个新变量其中包含来自两个不同列的字符串值的唯一计数所以我有这样的东西例如 A tibble 4 x 2 names partners
read_html(url) 和 read_html(content(GET(url), "text")) 之间的区别

我正在看这个很棒的答案 https stackoverflow com a 58211397 3502164 https stackoverflow com a 58211397 3502164 解决方案的开头包括 library httr
.htaccess 如果 URL 错误，请执行某些操作

我正在做我的个人CMS http en wikipedia org wiki Content management system 我想在其中使用很酷友好的 URL 这是我的 htaccess 文件代码 RewriteEngine on
python 相当于 R 中的 get() （= 使用字符串检索符号的值）

在 R 中 get s 函数检索名称存储在字符变量向量中的符号的值s e g X lt 10 r lt XVI s lt substr r 1 1 X get s 10 取罗马数字的第一个符号r并将其转换为其等效整数尽管花了一些时间翻
删除极坐标图边缘的多余空间和圆环

我有一个极坐标图ggplot2我已经非常接近完成相当简单的情节我已经能够在删除矩形边框方面获得帮助但我不需要删除最后一个范围轮廓与带有方位角标签的绘图周围的环之间的额外空间我希望该图的边界为 15 000 而不是 15 214 我编
条件字体颜色 R Markdown

我无法找到一种方法来根据变量的值 gt 0 0 或 r setup include FALSE x lt 4 This is an R Markdown document r if x gt 0 textcolor red Markdown
使用 template.docx 从 Shiny App 编织 Word 文档

我正在尝试使用 template docx 文件从闪亮的应用程序编写一个 Word 文档我收到以下错误消息 pandoc exe template docx openBinaryFile 不存在没有这样的文件或目录以下 3 个文件当前
如何修复 R 中 Kaplan Meier 图的风险表计算错误

以下是一个数据帧其中 6 个参与者中的每一个都有唯一的 record ID 我想绘制一个生存分析图其中包含感兴趣事件的复发以及在时间间隔 tstart 到 tstop 内暴露药物剂量数值变量的时间依赖性协变量每个参与者的最大
麦当劳 omega：R 中的警告

我正在计算几种不同尺度的欧米茄并在 R 中使用不同的 omega 函数获取不同比例的不同警告消息我的问题是如何解释这些警告以及报告检索到的 omega 统计数据是否安全当我使用从 alpha 到 omega 内部一致性估计普遍问题的
如何将plot中的单变量列表图表转换为ggplot2格式？

我正在搜索但仍然找不到一个非常简单的问题的答案我们如何使用 R 中的 ggplot2 生成一个变量的简单线图我正在分析时间序列数据并且想要对图表进行更复杂的操作我认为如果我使用 ggplot2 代替会更好plot It works

随机推荐

IntelliJ 和 WAR....更改的文件不会被服务器自动识别

我正在使用 Tomcat 运行 Intellij Ultimate 并部署战争一切都很好地部署到 tomcat 的 webapp 目录当我更改 xhtml 文件等文件时 tomcat 有没有办法自动获取该更改截至目前我需要从 Int
通过 JavaMail API 发送邮件时无法连接到 SMTP 主机异常

我正在尝试使用 JavaMail API 向 Gmail 帐户发送电子邮件我已经完成了以下代码我想将邮件发送给多个收件人但它不起作用它给出了一个异常例如无法连接到 SMTP 主机发送失败 package com cts ema
在 Hamcrest 中进行测试，列表中仅存在一项具有特定属性的项目

使用 Hamcrest 我们可以轻松测试是否存在最后一个列表中具有特定属性的项目例如 List
为什么 std::atomic 的compare_exchange 采用期望值的引用？

原因是什么std atomic
将错误转换为异常：设计缺陷？

我最近遇到一些代码它们使用自定义错误处理程序将任何 PHP 错误转换为通用应用程序异常还定义了一个自定义异常处理程序如果异常在特定错误代码范围内它将记录异常例子 class AppException extends Excepti
如何从 Git 存储库中删除工作树

我想将我的 Git 存储库转换为裸存储库我清楚地记得类似 git remove tree 之类的东西以前完成过这项工作但我在 1 7 上找不到它你能帮我一下吗谢谢大家这是通过将存储库移动到另一个地方然后设置 bare true 选
在 VS2010 中调试期间排除某些项目单步执行？

我正在一个大型 VS2010 解决方案全部用 C 编写中处理几个项目 A 和 B 在很多情况下项目 A 中的方法会调用解决方案中我不负责的一个或多个项目而这些项目又会调用项目 B 当使用项目 A 中的调试器单步执行时我被迫在我最终
Mysema Querydsl：没有 JPAQuery#list() 方法

一些在线示例Mysema 查询DSL使用依赖于JPAQuery list 方法例如这个 stackoverflow 答案包含 GROUP BY COUNT 聚合示例整篇文章中也提到了官方文档但是我在网上没有看到这种方法JPAQuer
在 Objective-C 中通过引用传递数组

我想通过引用传递 NSMutableArray 以便可以通过另一种方法更改它正确的语法是什么 Thanks Objective C 对象始终通过引用使用指针传递您不能通过值传递它们 IE 以下是好的 void mutateArray
Spring JPA ExampleMatcher 比较日期条件

我正在使用 Spring JPA 并使用示例匹配器获取数据列表源代码如下 public Page
如果表达式的中间结果溢出，是否属于未定义行为？

这个问题是另一个问题的结果那么问题示例代码 include
杀死java中正在运行的线程？

java中如何杀死正在运行的线程您可以通过调用来要求线程中断Thread interrupt 请注意存在一些具有类似语义的其他方法 stop and destroy 但他们是已弃用因为他们是unsafe 不要试图使用它们
Angular 中的货币格式化指令

我需要一个指令来过滤货币字段因此用户只需键入并隐含小数点 Needs 将十进制字段格式化为用户类型从用户键入的百分之位开始因此他们会输入 4 并看到 0 04 输入 42 并看到 0 42 输入298023并看到 2980 23 字
Rails：带有索引的 fields_for？

有没有一种方法或实现类似功能的方法来执行fields for with index 例子正在渲染的部分需要知道当前索引在fields for loop 答案很简单因为 Rails 中提供了解决方案您可以使用f options参数
Delphi XE3 DataSnap Server 中的访问请求标头

我正在 Delphi XE3 中实现 REST 服务器 API 大约十年来第一次使用 Delphi 所以有点生疏目前它使用 Indy 服务器进行调试但最终它将成为一个 ISAPI dll 现在我已经实现了许多 TDSServerClas
Android 操作栏 Sherlock 带选项卡

我正在尝试实现 ActionBar Sherlock 其下方带有选项卡如上面的线框所示我应该使用 TabActivity 吗因为我看到它已被弃用这是实现相同目标的最佳方法我用一个实现了这个功能SherlockFragmentAct
用于调试和错误的不同 log4j 布局？

在 log4j 中有没有办法让 logger error 和 logger debug 包含不同的输出布局我希望错误包含方法名称和行号这两者都会降低应用程序性能 EDIT 添加 apache log4j extras 后以下配置文件
无法验证回调 URL 或验证令牌。请验证所提供的信息或稍后重试

我一直在遵循 facebook 机器人设置指南并设置了一个在 EC2 实例上运行的回调 URL 我在尝试验证回调 url 并验证令牌时收到错误请参阅此标题 https 360 finance 1337 webhook是我的 webhoo
如何防止多次附加事件处理程序？

我有一个函数它将附加click我的元素的事件处理程序 function attachClickToElem elem on click function alert Hello World 问题是每当我调用这个函数时 nclick处理程序
使用 R 中的 stringr 提取特定单词周围的单词样本

我在 SO 上看到了一些关于这个主题的类似问题但它们的措辞似乎不正确 example 或用不同的语言 example 在我的场景中我认为所有被空白包围的东西都是一个单词表情符号数字不是真正单词的字母串我不在乎我只想获取找到的字

使用 R 中的 stringr 提取特定单词周围的单词样本

使用 R 中的 stringr 提取特定单词周围的单词样本 的相关文章

随机推荐

热门标签

使用 R 中的 stringr 提取特定单词周围的单词样本的相关文章