Ruby 的 String#gsub、unicode 和非单词字符

2024-03-10

作为更大系列操作的一部分，我试图获取更大字符串的标记化块，并去掉标点符号、非单词官样文章等。我最初的尝试使用String#gsub和\W正则表达式字符类，如下所示：

my_str = "Hello,"
processed = my_str.gsub(/\W/,'')
puts processed # => Hello

超级超级超级简单。当然，现在我正在扩展我的程序来处理非拉丁字符，一切都崩溃了。红宝石的\W似乎是这样的[^A-Za-z0-9_]，当然，不包括带有变音符号的内容（ü、í 等）。所以，现在我以前简单的代码以令人不快的方式崩溃和烧毁：

my_str = "Quística."
processed = my_str.gsub(/\W/,'')
puts processed # => Qustica

请注意，gsub() 有意地删除了带重音的“í”字符。我想到解决这个问题的一种方法是扩展 Ruby 的 \W 白名单以包含更高的 Unicode 代码点，但是它们的数量非常多，而且我知道我会错过一些并导致问题（并且我们甚至不要开始考虑非拉丁语言......）。另一个解决方案是将我想要删除的所有内容（标点符号、$/%/&/™ 等）列入黑名单，但是，同样，有很多东西，我really不想开始玩黑名单打地鼠游戏。

有没有人找到解决这个问题的原则性解决方案？是否有一些隐藏的、Unicode 友好的版本\W我还没有发现吗？谢谢！

您需要使用“-Ku”选项运行 ruby 以使其使用 UTF-8。请参阅文档命令行选项 http://phrogz.net/programmingruby/rubyworld.html。当我使用 irb 执行此操作时会发生以下情况：

% irb -Ku
irb(main):001:0> my_str = "Quística."
=> "Quística."
irb(main):002:0> processed = my_str.gsub(/\W/,'')
=> "Quística"
irb(main):003:0>

你也可以把它放在#!你的 ruby 脚本中的一行：

#!/usr/bin/ruby -Ku

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Ruby 的 String#gsub、unicode 和非单词字符的相关文章

UcanaccessSQLException：UCAExc:::3.0.1 表达式的数据类型不是布尔值

我有一张如下图所示的表格我需要获取其库尔德语单词包含的所有英语单词 r 所以我不能使用 select English from Table1 where Kurdish like 因为它还接受另一个单词中的子字符串例如当我尝试在查询中
至少 6 个字符正则表达式 [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我正在寻找至少检查 6 个字符的正则
文件名的正则表达式模式

如果文件名符合以下条件用户可以将文件放入服务器它必须以 abc 开头然后是一个点和一个数字 Valid file names abc 2344 abc 111 Invalid abcd 11 abc ab12 正则表达式是什么我不能
带有附加参数的redirect_to

我是一个菜鸟 redirect to users url notice Succeed p p 然后我添加一个message它失败了 redirect to users url notice Succeed message test p p
如何在 gem 的示例脚本中使用 pry-byebug ？

我正在制作我的第一个 gem 它不是 Rails 应用程序而是一个带有一些 AI 的 tic tac toe 库这样我就可以与一个永远不会输的计算机对手比赛并在可能的情况下强行获胜现在我正在尝试调试人工智能中的攻击策略但我似乎无法
使用先前的反向引用作为命名捕获组的名称

有没有办法使用对先前捕获组的反向引用作为捕获组的名称命名捕获组这可能不可能如果不可能那么这就是一个有效的答案下列 data description some description preg match data matches p
什么是 - 获取的是一个目录 - 错误消息

我收到这个奇怪的错误 Users gideon Documents ca ruby rubytactoe lib player rb 13 in gets Is a directory spec Errno EISDIR 玩家规格 rb r
检查条件并通过 Zend 中的 Regex 识别 url 中的模式

我正在实现 Zend Regex 路由并且必须对 url 执行多次检查例如如果这是我的网址 http localhost application public index php module controller action 这是
回滚后是否应该删除迁移

我对 ruby 和 Rails 相当陌生刚刚开始了解迁移我的问题是回滚后删除迁移的最佳实践或正确时间是什么到目前为止我读到的内容是回滚后是否删除迁移的观点问题但是在团队中工作时删除迁移是否有任何重大影响以及保留迁移文件相对于删除
C# 按钮文本 Unicode 字符

C 不想在按钮上放置 Unicode 字符如果我将 u2129 放入按钮的文本属性中按钮将显示 u2129 而不是 Unicode 字符例如我选择 2129 因为我可以在计算机上当前活动的字体中看到它我之前看到过这个问题链接文
正则表达式：删除 xml 的空元素标签

我想将所有自封闭元素替换为长语法因为我的网络浏览器在它们上绊倒 Example becomes 我正在使用 python 风格的正则表达式这些解决方案都不会容纳像 foo gt 这样的属性尝试 s lt w gt s gt lt 1
class_eval、class_exec、module_eval 和 module_exec 之间有什么区别？

我正在读Module文档但似乎无法理解它们的差异以及应该在哪里使用怎么样eval不同于exec 我将回答比你的问题更多的内容包括instance eval exec 在你的问题中所有变体 instance module class
检查rails devise ldap gem中的组成员身份，是否在yaml中？

我是否应该使用 ldap yml 文件来确保使用 ldap 进行身份验证的人拥有分配给他们的正确组以允许他们进入无论如何我都不是 AD 专业人士这让我很困惑什么是组和属性据我了解我们在 AD 中有一个用户他们有一个 samAc
为什么||和或在 Rails 中的行为有所不同？ [复制]

这个问题在这里已经有答案了可能的重复 i true 和 false 在 Ruby 中是真的吗 https stackoverflow com questions 2802494 i true and false in ruby is tr
Perl 非贪婪

我遇到非贪婪正则表达式 regex 的问题我已经看到有关于非贪婪正则表达式的问题但它们没有回答我的问题 Problem 我正在尝试匹配 lol 锚点的 href Note 我知道这可以通过 Perl HTML 解析模块来完成我的问题是
如何使用 Ruby on Rails 3 检查 HTTP 请求的“Content-Length”字段？

我正在使用 Ruby on Rails 3 在我的视图文件中我有以下代码为了避免服务器过载我会在服务器接收上传文件之前检查上传文件的大小这是因为按下表单的提交按钮服务器会先完整接收文件然后再检查文件我知道一个HTTP 请求有标
为什么我可以像调用实例方法一样调用类方法？

我正在查看这个例子 class SQLObject def self columns return columns if columns columns DBConnection execute2 lt lt SQL first SELEC
如何使用 ICU 解析汉字数字字符？

我正在编写一个使用 ICU 来解析由汉字数字字符组成的 Unicode 字符串的函数并希望返回该字符串的整数值五 gt 5 三十一 gt 31 五千九百七十二 gt 5972 我将区域设置设置为 Locale getJapan 并使用
Javascript Replace() 和 $1 问题

我正在尝试创建一个脚本来搜索文本中的模式并在它找到的字符串周围包裹一个标签 shop attributes td each function this html function i html return html replace E 0
升级到 Rails 6 时是否有一种编程方法可以检测 Zeitwerk::NameError？

我目前正在将旧的 Rails 应用程序迁移到 Rails 6 好像项目中有些文件和里面定义的类不一致运行应用程序测试时我没有看到此错误但部署后我收到如下错误 Zeitwerk NameError expected file app my

随机推荐

无法在 .aspx 中的查询字符串中传递多个值以在运行时报告

这应该是一个简单的过程但现在它变成了烦人的问题我试图在 VS2012 中的 ASP Net Web 报告中的查询字符串中传递多个值该页面必须将多个值作为参数传递给报表当我发送单个值例如 abc 时数据会被正确提取但是当我传递由
将无服务器 VPC 连接器连接到宿主项目中的 Cloud Run 时出现权限问题

我的项目中的 Cloud Run 有一个服务x需要访问虚拟机实例我允许使用无服务器 VPC 连接器在host项目我的问题同时关注this https cloud google com run docs configuring sha
将光标设置为元素

我有一个 HTML 符号
ASP.NET Core WebAPI 404 错误

我在 asp net core 中创建了一个 Web Api Api 的内容如下 Route api controller public class BlogController Controller public IContext con
如何将列表中保存的 datagridview 复选框列值导出到 Excel 中

我有一个class and a Form1 In my class我创建了变量来保存我的数据保存状态 cs public static List
symfony2 +doctrine2@postgresql 设置模式

我想在新项目中使用 symfony2 doctrine2 我遇到了 postgresql schemes 的一个小问题与 mysql 相比您可以在 postgres 像其他数据库一样中指定不同的方案例如我们的 Productiv
HTML 服务 - 未捕获的网络错误：表单提交失败

我正在研究谷歌示例代码HTML 服务与服务器功能通信 https developers google com apps script guides html communication 我无法让示例代码适用于 Forms 代码中是否有错误
具有 flatMap 的集合是 monad 吗？

Scala有一个特点Iterable A 定义了 def flatMap B f A GenTraversableOnce B Iterable B 那当然looks就像 monad 上的 bind 函数一样文档暗示它是一个 monad
C++ SDL，为什么SDL_LoadBMP()返回NULL？

在做了一些研究后我刚刚开始使用 SDL 我从本教程开始http lazyfoo net SDL tutorials lesson01 index2 php http lazyfoo net SDL tutorials lesson01 i
将多个 PDF 文件合并为一个单页 PDF - 使用 PHP 进行定位合并 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案这并不是尝试将单独的 PDF 合并为一个具有多个页面的 PDF 它试图从已经存在的其他几个 PDF 中
为什么 sys.stdin.readline() 的结果与我期望的结果不相等？

我正在尝试将键盘输入与字符串进行比较 import sys read from keyboard line sys stdin readline if line stop print stop detected else print no
从稀疏定义列表中挑选无模式下值的算法

我有以下问题我正在开发一个随机模拟器它随机采样系统的配置并存储每个配置在特定时间实例被访问次数的统计数据代码大致是这样的 f Integer Integer 0 someplace later in the code e g ind
jQuery 中的缓动函数

这个问题听起来太微不足道了但我在任何地方都找不到答案我正在浏览 jQuery 文档看到了一些像这样的签名 show duration easing callback and animate properties duration ea
如何过滤多个extjs网格列？

要过滤一个网格列我们可以使用 xtype button text Search handler function store clearFilter var searchValue Ext getCmp textFieldId getVa
目录轮询的最佳实践

我必须进行批处理来自动化业务流程我必须定期轮询目录以检测新文件并进行处理当旧文件正在处理时新文件可以进来目前我使用quartz调度程序和线程同步来确保只有一个线程可以处理文件部分代码为应用程序上下文 xml
MSVC 中带有 UTF8 字符的 wchar_t*

我正在尝试格式化wchar t 与 UTF 8 字符一起使用vsnprintf然后使用打印缓冲区printf 给出以下代码 This code is modified version of KB sample https www ibm c
Spring MVC 控制器中代理 HttpServletRequest 最简单的方法

我正在使用 spring mvc 构建 REST 服务我现在正在寻找一种从 Spring MVC 控制器内部将 HTTP 请求代理到外部 REST 服务的方法我正在获取 HttpServletRequest 对象并希望代理它并进行尽可
查找所有子控件WPF

我想找到 WPF 控件中的所有控件我查看了很多示例似乎它们都需要名称作为参数传递或者根本不起作用我有现有的代码但它无法正常工作 public static IEnumerable
C 预处理器能够逐字符处理字符串吗？

我想在编译时隐藏字符串我知道它可以在其他预处理器中完成但我还没有找到一种方法来做到这一点C预处理器好吧你可以做到但它很难看 define ENCODE STRING 14 str str 0 0x020 str 1 0x020 s
Ruby 的 String#gsub、unicode 和非单词字符

作为更大系列操作的一部分我试图获取更大字符串的标记化块并去掉标点符号非单词官样文章等我最初的尝试使用String gsub和 W正则表达式字符类如下所示 my str Hello processed my str gsub W p

Ruby 的 String#gsub、unicode 和非单词字符

Ruby 的 String#gsub、unicode 和非单词字符 的相关文章

随机推荐

热门标签

Ruby 的 String#gsub、unicode 和非单词字符的相关文章