使用 ruby 的正则表达式来匹配句子中的主题标签

2024-04-25

我正在尝试使用 ruby on Rails 为一个简单的大学项目提取主题标签。我面临着仅包含数字的标签和没有空格的标签的问题。

text = "Pack my #box with #5 dozen liquor.#jugs link.com/liquor#jugs #2good #first#second"

我的正则表达式是/(?:^|\s)#(\w+)/i (source https://stackoverflow.com/questions/1796763/regular-expression-to-match-a-pattern-either-at-the-beginning-of-the-line-or-aft)

这个正则表达式返回#["box", "5", "2good", "first"]

如何确保它只返回#["box", "2good"]并忽略其余部分，因为它们不是“真正的”主题标签？

你能试试这个正则表达式吗：

/(?:^|\s)(?:(?:#\d+?)|(#\w+?))\s/i

更新1：
在某些情况下，上述正则表达式不会匹配，例如：#blah23blah 和 #23blah23。因此修改了正则表达式来处理所有情况。

Regex:

/(?:\s|^)(?:#(?!\d+(?:\s|$)))(\w+)(?=\s|$)/i

分解：

(?:\s|^)--匹配前面的空格或行首。才不是捕捉比赛。
#--匹配哈希但不捕获。
(?!\d+(?:\s|$)))--负向预测以避免所有数字字符 # 和空格（或行尾）之间
(\w+)--匹配并捕获所有单词字符
(?=\s|$)--正向前视以确保以下空格或结尾线。这是为了确保它与相邻的有效哈希标签匹配所必需的。

修改示例文本以捕获大多数情况：

#blah 在我的#盒子里装上#5打#good2 #3好酒。#jugs link.com/liquor#jugs #mkvef214asdwq sd #3e4 flsd #2good #first#second #3

Matches:

第1场比赛：废话
比赛2：盒子
比赛3：好2
第 4 场比赛：3 好
比赛 5：mkvef214asdwq
比赛 6: 3e4
第 7 场比赛：2 好

红柱状链接 http://www.rubular.com/r/MD6avgvV05

更新2：

要排除以下划线开头或结尾的单词，只需将排除项包含在否定前瞻中，如下所示：

/(?:\s|^)(?:#(?!(?:\d+|\w+?_|_\w+?)(?:\s|$)))(\w+)(?=\s|$)/i

样本、正则表达式和匹配记录在此红柱状链接 http://www.rubular.com/r/PySQB8NvUY

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ruby

regex

twitter

hashtag

使用 ruby 的正则表达式来匹配句子中的主题标签的相关文章

Rails 返回 JSON 序列化属性 with_in Different_access

我以前有 serialize params JSON 但这会返回 JSON 并将哈希键符号转换为字符串我想使用符号引用哈希这在使用哈希时最常见我向它提供符号 Rails 返回字符串为了避免这种情况我创建了自己的 getter se
Groovy 中的显式输入：有时还是从不？

后来仍然无法弄清楚 Groovy 是否具有静态类型似乎没有或者使用显式类型生成的字节码是否不同似乎是无论如何回答这个问题 One of the main differences between Groovy and other
是否可以基于正则表达式模式生成示例字符串？

在我的应用程序中用户可以在文本框中输入他自己的正则表达式模式以便他可以强制另一个用户文本框进行特定输入用户是否可以看到与他输入的正则表达式匹配的字符串示例例如如果他要输入 A Z 2 它会生成一个像 XX 向用户表明他只能输入两
使用正则表达式的 Strip() 函数

我正在尝试重新创建strip 使用正则表达式的Python函数这是最后一个练习题用 Python 自动化处理无聊的事情 https automatetheboringstuff com chapter7 这是我的代码 import re
地图、每个和收集之间有什么区别？ [复制]

这个问题在这里已经有答案了在 Ruby 中功能之间有什么区别吗 each map and collect each不同于map and collect but map and collect是相同的技术上map是一个别名collect
避免在 Ruby 中自动从 Fixnum 转换为 Bignum

我正在将算法从 C 移植到 Ruby 该算法有一个方法返回一个int有时会溢出 private static int NextRandom int n return 1234567890 n 12345 该算法利用溢出来避免该函数返回的值超
close 似乎不适用于 WebSocket

我有这个简单的 JavaScript 代码 window ws new WebSocket ws 127 0 0 1 8000 ws onopen function ws send hello Ruby 中的服务器如下所示 require
ActiveRecord oracle_enhanced 适配器无法加载 ruby-oci8 库

rails g scaffold失败但 oci 脚本和 irb 数据查询有效无法弄清楚出了什么问题 rails g scaffold table field1 integer field2 string invoke active re
Ruby 代码到 JAR

我希望能够将 ruby 程序编译为 java JAR 程序我研究过 JRuby 看到了几个能够 eval ruby 代码的 Java 应用程序示例但是是否有更优雅的解决方案允许简单地用 ruby 编写所有内容然后将其直接编译为 JAR
JavaScript 和正则表达式：文字语法与正则表达式正则表达式对象

我在这段小 JavaScript 代码中遇到了一些麻烦 var text Z Test Yeah Z With literal syntax it returns true good alert Z s S Z g test text Bu
如何连接行并添加分隔符？

命令J连接线命令gJ连接线删除空格是否还有连接行的命令在行之间添加分隔符 Example Input text other text more text text 我想做的事选择这4行如果开始和或 EOL 处有空格请将其删除
PHP中用逗号分解复杂字符串

我需要分割一个包含逗号的字符串我已经找到了类似字符串的东西 str getcsv A B with a comma eh C 但我的字符串是这样的例如值没有包含字符 A B one two C 我需要分解它并获得 array 3 0 g
正则表达式 - 检查输入是否仍有机会匹配

我们有这样的正则表达式 var regexp one two three 所以只有像这样的字符串 one two three or one two three four or one twotwo three 等会匹配它但是如果我们有类
正则表达式删除块注释也删除 * 选择器

我正在尝试使用 bash 从 css 文件中删除所有块注释我有以下 sed 命令的正则表达式 sed r s w s w d 这可以很好地去除块注释例如 This is a comment this is another comment
在任意时间范围内找到最佳日/月/年间隔的算法？

如果您有时间表请说 March 19 2009 July 15 2011 是否有一种算法可以将该时间范围分解为 March 19 2009 March 31 2009 complete days April 1 2009 December
使用解析将 ** 运算符更改为幂函数？

我的要求是将运算符更改为幂函数例如 1 Input B 2 Output power B 2 2 B 2 T 2 X Output power B 2 我写了下面的正则表达式来解决这个问题 rx r a zA Z0 9 a zA Z0
如何在 JS Rails 响应中包含 HTML？

我有一个响应 HTML 和 JS AJAX 查询的 FooController app controllers foo controller rb class FooController lt ApplicationController l
从类内部调用属性访问器方法[重复]

这个问题在这里已经有答案了我正在尝试调用我的类属性编写器之一但由于某种原因它永远不会被调用下面是一些代码可以使这一点更清楚 class Test attr reader test def test val puts Called t
Rails 3 - “无法解析 Yaml”

我不知道我做错了什么我尝试运行 rails c 但它只是给了我一个错误 10 分钟前它还在工作 C Ruby192 lib ruby 1 9 1 psych rb 148 in parse couldn t parse YAML at l
文件名的正则表达式模式

如果文件名符合以下条件用户可以将文件放入服务器它必须以 abc 开头然后是一个点和一个数字 Valid file names abc 2344 abc 111 Invalid abcd 11 abc ab12 正则表达式是什么我不能

随机推荐

如何使用 Azure Active Directory Graph API 获取属于 AppRole 的所有用户

我一生都无法弄清楚如何查询 Azure Active Directory 的图形 API 来获取属于特定 AppRole 的所有用户首先我尝试了类似的东西 client Users Where u gt u AppRoleAssignme
如何防范资源耗尽等漏洞？

我们碰巧使用IBM appscanhttp www 01 ibm com software awdtools appscan http www 01 ibm com software awdtools appscan 针对我们的 java
仅使用 CSS 切换手风琴字形图标

嗯我有一个手风琴菜单我想更改字形图标我找到了一些询问同样问题的人的答案但我发现没有答案适用于我的可能是因为我不知道在哪里应用代码我在 Jsfiddle 中的菜单 http jsfiddle net 3wt0ehcj http j
连接从左到右 (LTR) 和从右到左 (RTL) 文本

似乎使用组合从左到右 LTR 和从右到左 RTL 文本paste可能会产生意想不到的结果 x paste c green collapse arabic for blue and red gt 1 green paste x yellow
Java If(false) 编译

我正在使用 Tomcat 开发一个动态 Web 项目有一个全局标志很有用这是我在开发服务器和部署服务器之间唯一需要更改的东西该标志的最大用途是与打印语句一起使用 public class Debug public final stat
安卓定时器问题

您好我正在构建一个应用程序它将在固定的时间段例如每 30 分钟执行一段代码我希望这个时间段是严格的我的意思是我希望保证该时间段为 30 分钟而不是 28 分钟或者每当操作系统想要执行它时我有一个 Timer 对象并按如下方式
如何在本机反应中使用高度自动？

在浏览器中可以指定图像的宽度并且可以将高度设置为自动这将使图像在绑定到指定宽度的同时保留宽高比高度和长宽比均事先未知我怎样才能在本机反应中做同样的事情 Height 属性只能接受数字值解决方法得到Dimensions模块来自r
如何展平嵌套 JSON

尝试将嵌套的 json 响应从 2 层深度压平到 1 层这是我在 Go Playground 上的工作代码 http play golang org p kHAYuZUTko http play golang org p kHAYuZUT
找出 2 个日期之间的月数

select age 2012 11 30 00 00 00 timestamp 2012 10 31 00 00 00 timestamp age 2012 12 31 00 00 00 timestamp 2012 10 31 00 0
将MapPageRoute添加到asp.net mvc项目后，站点停止进入Home Controller

我正在尝试在我的 asp net mvc 项目中路由 aspx Webforms 页面我在 global asax 中注册该页面 routes IgnoreRoute resource axd pathInfo routes MapPag
如何使用 VS Code 浏览器进行导航

这是一个关于 VS Code 资源管理器窗口导航的问题在 Windows 资源管理器应用程序中我可以立即导航到我选择的任何文件如果 Windows 资源管理器窗口以升序名称顺序显示我的文件夹或文件我可以通过键入我要查找的文件文件夹
获取 angular2 中表单的所有值

我可以使用以下代码获取表单的值
查找集合列表中不相交集合对的数量

问题陈述如下给定一个包含 n 个集合的列表每个集合包含 k 个整数找到不相交集合对的数量假设集合的可能元素为正且上界为 c gt n 并且假设 k 我试图想出一种有效的算法来比 O kn 2 更快地解决这个问题这是简单解决方案的
使用java将当前GMT时间转换为CST时区

我正在尝试使用 JDK8 将当前 GMT 时间转换为 CST 时间但我的代码总是为两个时区返回相同的时间我还验证了 getAvailableIDs 具有 CST Calendar cal Calendar getInstance Tim
ASP.NET WebForms：短路验证

我有一个正在验证的网格文本框
Django AJAX JSON 响应在浏览器中显示为原始文本

我正在 Pinax 框架内使用 Django 1 4 2 开发一个 Stripe Web 应用程序 django stripe 付款艾尔达瑞安阿贾克斯我已经一切正常除了 ajax 响应 JSON 格式似乎没有被任何 ajax 回调
将聚合查询结果映射到 hibernate 对象

是否可以将聚合查询的结果映射到 hibernate 支持的域对象中的字段例如如果我有一个如下所示的 Car 对象 Entity public class Car Id private int id Column private Stri
iOS - 本地通知 - cancelAllLocalNotifications

可能是一个简单的问题当我调用 cancelAllLocalNotifications 时它是仅取消该应用程序创建的通知还是也会取消来自其他应用程序的所有通知其他应用程序创建的通知不会受到影响 From 本地和推送通知编程指南 http
最好的“忘记密码”方法是什么？ [复制]

这个问题在这里已经有答案了可能的重复忘记密码实现忘记密码功能的最佳方法是什么 https stackoverflow com questions 522967 forgot password what is the best meth
使用 ruby 的正则表达式来匹配句子中的主题标签

我正在尝试使用 ruby on Rails 为一个简单的大学项目提取主题标签我面临着仅包含数字的标签和没有空格的标签的问题 text Pack my box with 5 dozen liquor jugs link com liquor

使用 ruby​​ 的正则表达式来匹配句子中的主题标签

使用 ruby​​ 的正则表达式来匹配句子中的主题标签 的相关文章

随机推荐

热门标签

使用 ruby 的正则表达式来匹配句子中的主题标签

使用 ruby 的正则表达式来匹配句子中的主题标签的相关文章