在匹配字符串之前在变量上包含正则表达式

2024-01-04

我正在尝试查找并提取从文本文件中读取的单词在文本文件中的出现情况。到目前为止，我只能找到这个词何时被正确书写且未被修改（a 更改为 @ 或 i 更改为 1）。是否可以在我的字符串中添加正则表达式以进行匹配或类似的操作？到目前为止，这是我的代码：

sub getOccurrenceOfStringInFileCaseInsensitive
{
  my $fileName = $_[0];
  my $stringToCount = $_[1];
  my $numberOfOccurrences = 0;
  my @wordArray = wordsInFileToArray ($fileName);

  foreach (@wordArray)
  {
    my $numberOfNewOccurrences = () = (m/$stringToCount/gi);
    $numberOfOccurrences += $numberOfNewOccurrences;
  } 


  return $numberOfOccurrences;
}

该例程接收文件名和要搜索的字符串。例程 WordsInFileToArray () 只是从文件中获取每个单词并返回一个包含它们的数组。理想情况下，我希望直接从文件中一次性执行此搜索，而不是将所有内容移至数组并迭代它。但主要问题是如何将某些内容硬编码到函数中，以允许我捕获被修改的单词。

示例：我想从文件中提取这两行。示例.txt：

russ1@anh@ck3r

俄罗斯黑客

# this variable also will be read from a blacklist file
$searchString = "russianhacker";
getOccurrenceOfStringInFileCaseInsensitive ("example.txt", $searchString);

预先感谢您的任何回复。

Edit:

可能的替换将由用户定义，并且必须将正则表达式设置为适合。用户可能会说常见的替换是将字母“a”更改为“@”甚至“1”。可能的改变是完全任意的。当搜索特定单词（例如“Russian”）时，可以通过以下方式完成：

(m/russian/i); # would just match the word as it is
(m/russi[a@1]n/i); # would match the munged word

但如果我将要匹配的字符串存储在变量中，我不确定该怎么做，例如：

$stringToSearch = "russian";

这是一种全文搜索问题，因此一种方法是在匹配文档字符串之前对其进行规范化。

use strict;
use warnings;
use Data::Munge 'list2re';
...
my %norms = (
  '@' => 'a',
  '1' => 'i',
  ...
);
my $re = list2re keys %norms;
s/($re)/$norms{$1}/ge for @wordArray;

这种方法仅在任何给定单词只有一个可能的“规范化形式”时才有效，并且如果您的文档足够大并且每次搜索时都重新计算，那么效率可能比尝试搜索字符串的每个可能变体要低。。

作为注释你的正则表达式m/$randomString/gi应该m/\Q$randomString/gi，因为您不希望 $randomString 中的任何正则表达式元字符以这种方式解释。请参阅文档引用元 https://perldoc.pl/functions/quotemeta.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

regex

perl

在匹配字符串之前在变量上包含正则表达式的相关文章

Boost 正则表达式：获取命名组

如何使用 Boost 正则表达式获取与模式匹配对应的组名称以下将输出与给定模式匹配的表达式但是如何获取对应的命名组呢 boost regex pattern
性能 - String.charAt(0) 与 /^.{1}/

从概念上讲哪个应该更快 String charAt 0 or 1 regex String charAt 0 必须处理和应用正则表达式速度测试资源 Paul S https stackoverflow com users 1615483
在java正则表达式中获取组名

我正在尝试接收模式和字符串并返回组名称 gt 匹配结果的映射 Example
PHP中用逗号分解复杂字符串

我需要分割一个包含逗号的字符串我已经找到了类似字符串的东西 str getcsv A B with a comma eh C 但我的字符串是这样的例如值没有包含字符 A B one two C 我需要分解它并获得 array 3 0 g
正则表达式：如何匹配所有大于 49 的数字？

我对正则表达式有点陌生正在为正则表达式的数量字段编写验证need要使用的如何匹配所有大于或等于 50 的数字 I tried 5 9 0 9 但这只匹配 50 99 有没有一种简单的方法来匹配所有可能大于 49 的数字仅使用整数事实
如何从 Python 列表中删除日期

我有一个标记化文本列表 list of words 看起来像这样 list of words 08 20 2014 10 04 27 pm complet vendor per mfg recommend 08 20 2014 10 04
Java：正则表达式，其中每个字符出现0-1次

Problem 匹配正则表达式的每个字符最多出现一次的单词该单词必须具有一定的大小例如 2 5 单词中必须有一个特定的字符比方说字符 e 我有什么 word matches abcde 2 5 这将匹配字符 a b c d 和 e 出
使用正则表达式抓取文本正文，排除特定条件

我正在使用 Python 正则表达式来获取已解析电子邮件的正文该正文可能不包含任何内容也可能看起来像这样一些连贯的句子拉尔斯克法 ljkd 其他的东西几行电子邮件签名等等等等等等等等我想要电子邮件正文中的所有内容不包括签名行
php正则表达式删除数字

我需要一个正则表达式来删除字符串中的数字但不删除空格我目前有 city location UK 0113 Leeds new york sip city 0113Leeds new york city preg replace a z
如何比较两个文件中的多列并在找到匹配时从另一列检索相应的值

我有两个文件 File1 txt 和 File2 txt 我需要将 File1 中的三列 1 2 和 3 分别与 File2 的 4 5 和 6 进行比较如果找到匹配项我想从 File2 的第 2 列中检索相应的值并将其粘贴到输出中 T
RewriteCond REQUEST_URI - ^ 未按预期工作

我正在 codeigniter 中构建一个网站我在 htaccess 文件中有一系列重写条件和规则第一组规则根据 uri 的第一段打开或关闭 SSL 然后它再次循环如果找到匹配项则适当地重定向页面如果没有匹配项并且 uri 不以
正则表达式字符串中第一个和最后一个非点的位置

我希望找到字符串的第一个和最后一个非点元素的位置理想情况下我想这样做regex在基地R 我已经写过R解决问题的代码不过我对一个感兴趣regex解决方案感谢您的任何建议这是一个示例数据集和R代码以获得所需的结果此代码拆分字符串并使
Perl 中可以使用哪种语法糖来减少左/右值运算符与 if 语句的代码？

那里有很多语句因为 Perl 是一种非常甜蜜的语言但任何语言中最常用的语句都是 if 语句和设置值的组合我想我已经找到了很多但仍然存在一些空白最终目标是不必多次编写变量名这是我到目前为止所拥有的 r s r s unless
.htaccess 异常导致主目录出现问题

这是我的目录结构 localhost or livehost app bootstrap public vendor code demo 这是我的 htaccess
Perl 和 Unix 如何以相同的顺序对 Unicode 字符串进行排序？

我正在尝试获取 Perl 和 GNU Linuxsort 1 程序就如何对 Unicode 字符串进行排序达成一致我在跑sort with LANG en US UTF 8 在Perl程序中我尝试了以下方法 use Unicode Col
正则表达式匹配整个单词[重复]

这个问题在这里已经有答案了我在 stackoverflow 上看到了很多关于使用正则表达式进行全词匹配的例子我有以下情况我想用 www xyz com 替换 www abc com string RetVal I am going t
没有特殊字符的密码验证器

我是 RegEx 的新手已经进行了大量搜索但没有找到任何具体内容我正在编写一个验证密码字符串的正则表达式可接受的字符串必须至少具有 4 种字符类型中的 3 种数字小写字母大写字母特殊字符我对包含有一个想法也就是说如果这
如何确保我的代码永远不会直接退出？

eval require file subsequent code goes here If file包含一个exit语句后面的代码就没有机会运行如何解决以便后续代码始终有机会运行eval已经完成了中止是不可能的exit call f
检查条件并通过 Zend 中的 Regex 识别 url 中的模式

我正在实现 Zend Regex 路由并且必须对 url 执行多次检查例如如果这是我的网址 http localhost application public index php module controller action 这是
在python中，如何仅搜索所选子字符串之前的一个单词

给定文本文件中的长行列表我只想返回紧邻其前面的子字符串例如单词狗描述狗的单词例如假设有这些行包含狗 hotdog big dog is dogged dog spy with my dog brown dogs 在这种情况下期望

随机推荐

GROUP BY 和 ORDER BY [重复]

这个问题在这里已经有答案了可能的重复 SQL GROUP BY 中的 ORDER BY 总计 https stackoverflow com questions 2237918 sql order by total within grou
如何在 Node 8 的 Node.js REPL 中导入 ES 模块？

我有一个ES6 https en wikipedia org wiki ECMAScript 6th Edition E2 80 93 ECMAScript 2015 module right mjs 将其作为参数执行node效果很好 no
Laravel 5.1：将上传的文件保留为旧输入

我正在使用 Laravel 5 1 中的表单来发布一些文本并上传文件它看起来像这样简化版 Form open array url gt foo bar Form text image name Form file image Form
Javascript - 如何将缓冲区转换为字符串？

这是将 String 转换为 Buffer 再转换回 String 的示例 let bufferOne Buffer from This is a buffer example console log bufferOne Output
deviceready 不在科尔多瓦发射

对于我的 cordova 项目 deviceready 未正确触发至少在 iOS 中我已经搜索了几个小时但仍然无法弄清楚这一点我做错了什么吗 js cordova js 的路径也存在
如何在 ggplot2 R 中使用 sec_axis() 处理离散数据？

我有如下所示的离散数据 height lt c 1 2 3 4 5 6 7 8 weight lt c 100 200 300 400 500 600 700 800 person lt c Jack Jim Jill Tess Jack
Mediatr - 无效/更新缓存的正确位置在哪里

这个问题源于我问过太多接口 QCRS 和 Mediatr 库请求响应的另一个问题 Mediatr 减少 DI 对象的数量 https stackoverflow com questions 53966361 mediatr reduc
JAXB：Unmarshaller 尝试实例化抽象类（忽略 xsi:type）

几天来我一直在努力解决一个奇怪的问题客户提供 Web 服务和 WSDL 我使用 wsimport 和一些 jaxb 自定义导入了 WSDL 所有爪哇生成的类没有任何错误当我使用 Java 类来解组响应时出现以下异常 06 02 2
Ruby：一次从字符串和两个数组值构建哈希

我正在尝试使用以下命令构建哈希 hash strings one two three array 1 2 3 4 5 6 所以我最终得到 hash one gt 1 2 two gt 3 4 three gt 5 6 我努力了 string
将矩阵缩放到新范围[重复]

这个问题在这里已经有答案了可能的重复 MATLAB 如何将向量标准化非标准化到范围 1 1 https stackoverflow com questions 4684622 matlab how to normalize denorm
AWS Elastic Beanstalk + Laravel、Nginx 配置

最近 AWS 开始使用 Amazon Linux 2 分发 Elastic Beanstalk PHP 环境该环境已放弃 apache 转而使用 Nginx 我一直在尝试正确配置我的 Laravel 项目以使其工作以前我只需要添加一些
VB.NET - 滥用实例变量？

请看下面的代码 Public Class A Public person1 As Person End Class Public Class B Inherits A Public Function CheckGender As Boole
适用于 VS2015 的 Typescript 1.5，无需访问互联网

是否可以在没有互联网访问的情况下在 Visual Studio 2015 上安装 TypeScript 1 5 由于它与 VS2015 一起开箱即用似乎不存在安装程序 1 5 beta 除外但是如果您无法访问互联网 VS 安装会以警
如何使用 pandas python 绘制堆积条形图

我有 3 个用于年度数据的数据框一个用于 2014 年 2015 年和 2016 年每个数据框都有 3 个名为的列 PRACTICE BNF NAME ITEMS BNF NAME 指的是药物名称我选择了 3 个氨苄青霉素阿莫西林和
当我想使用 highcharts 在网页上显示图表时，为什么会出现“预期属性分配”的问题

当我想使用 django 和 highcharts 在网页上显示图表时遇到问题这是我的detail html 文件我的大括号一侧有一个名为预期属性分配的错误 dateList dateList safe price price ro
键盘打开时 ImageView 调整大小

这是我的代码
为什么我的 Symfony 页面特定脚本不起作用？

我第一次使用 symfony 也是它的最后一个版本即 5 我设法编写了多个文件上传的代码并且工作正常然而在选择文件时文件类型字段中不会显示任何内容即所选文件的数量和名称都不会出现在网上做了一些搜索我发现我必须做一些 Jav
gitk 错误：自动释放池页面已损坏

从今天早上开始当我尝试在带有 git 实例的项目上使用 gitk 时它给了我以下错误从今天起我就再也没有遇到过这种情况而且我已经使用 gitk 好几个月了我可以指出的唯一区别是今天早上在尝试安装 iStat 来监控我的 mac
为什么函数调用时模板参数包不会被推导为多个类型参数？

我有一个基于类型参数和参数包模板化的类并且对这种类型的类型推导感到困惑在编写输出流运算符时我发现了一个参数包operator lt lt 将不匹配模板类的 type 和 pack 参数 include
在匹配字符串之前在变量上包含正则表达式

我正在尝试查找并提取从文本文件中读取的单词在文本文件中的出现情况到目前为止我只能找到这个词何时被正确书写且未被修改 a 更改为或 i 更改为 1 是否可以在我的字符串中添加正则表达式以进行匹配或类似的操作到目前为止这是我的代码 s

在匹配字符串之前在变量上包含正则表达式

在匹配字符串之前在变量上包含正则表达式 的相关文章

随机推荐

热门标签

在匹配字符串之前在变量上包含正则表达式的相关文章