Regex / DOMDocument - 匹配和替换不在链接中的文本

2023-12-26

我需要以不区分大小写的方式查找并替换所有文本匹配，除非文本位于锚标记内 - 例如：

<p>Match this text and replace it</p>
<p>Don't <a href="/">match this text</a></p>
<p>We still need to match this text and replace it</p>

搜索“匹配此文本”只会替换第一个实例和最后一个实例。

[Edit]根据 Gordon 的评论，在这种情况下最好使用 DOMDocument。我对 DOMDocument 扩展一点也不熟悉，并且非常感谢此功能的一些基本示例。

这是一个 UTF-8 安全解决方案，它不仅适用于格式正确的文档，还适用于文档片段。

需要 mb_convert_encoding，因为 loadHtml() 似乎有 UTF-8 编码的错误（请参阅here https://stackoverflow.com/questions/3872423/php-problem-with-russian-language/3872663#3872663 and here https://stackoverflow.com/questions/2236889/why-does-dom-change-encoding/2238149#2238149).

mb_substr 正在从输出中修剪主体标记，这样您就可以恢复原始内容而无需任何额外的标记。

<?php
$html = '<p>Match this text and replace it</p>
<p>Don\'t <a href="/">match this text</a></p>
<p>We still need to match this text and replace itŐŰ</p>
<p>This is <a href="#">a link <span>with <strong>don\'t match this text</strong> content</span></a></p>';

$dom = new DOMDocument();
// loadXml needs properly formatted documents, so it's better to use loadHtml, but it needs a hack to properly handle UTF-8 encoding
$dom->loadHtml(mb_convert_encoding($html, 'HTML-ENTITIES', "UTF-8"));

$xpath = new DOMXPath($dom);

foreach($xpath->query('//text()[not(ancestor::a)]') as $node)
{
    $replaced = str_ireplace('match this text', 'MATCH', $node->wholeText);
    $newNode  = $dom->createDocumentFragment();
    $newNode->appendXML($replaced);
    $node->parentNode->replaceChild($newNode, $node);
}

// get only the body tag with its contents, then trim the body tag itself to get only the original content
echo mb_substr($dom->saveXML($xpath->query('//body')->item(0)), 6, -7, "UTF-8");

参考：
1. 通过 php dom 在 html 片段中通过超链接查找并替换关键字 https://stackoverflow.com/questions/3151064/find-and-replace-keywords-by-hyperlinks-in-an-html-fragment-via-php-dom/3151554#3151554
2. Regex / DOMDocument - 匹配和替换不在链接中的文本 https://stackoverflow.com/questions/4044812/regex-domdocument-match-and-replace-text-not-in-a-link/4156573#4156573
3. php 俄语问题 https://stackoverflow.com/questions/3872423/php-problem-with-russian-language/3872663#3872663
4. DOM 为什么要改变编码？ https://stackoverflow.com/questions/2236889/why-does-dom-change-encoding/2238149#2238149

我阅读了该主题的数十个答案，所以如果我忘记了某人，我很抱歉（请评论它，在这种情况下我也会添加你的答案）。

感谢戈登和仍然站立的评论我的另一个答案 https://stackoverflow.com/questions/4044812/regex-domdocument-match-and-replace-text-not-in-a-link/4192155#4192155.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Regex / DOMDocument - 匹配和替换不在链接中的文本的相关文章

如何解压 PHP/Lumen/Laravel 的 gzip 请求？

我收到来自第三方的 gzip 编码文本请求 1mb 所以这是有道理的我的测试路线 router gt post testgzip function Illuminate Http Request request decompressed
如何检查PHP变量是否包含非数字？

我只是想知道检查 PHP 变量中是否有非数字的方法以及它是否也检测字符之间的空格需要确保我的表单字段中没有添加任何奇怪的内容提前致谢如果您的意思是您只想要一个包含数字的值那么您可以使用ctype digit http php net
从
```
 
```
标记内删除
我制作了简单的 BBCode 脚本一切正常但后来我使用了一个 javascript 库来美化我的代码 pre pre 现在我面临的唯一问题是 br 每行代码后面的标签 pre pre tags 所以问题是我怎样才能删除 br 标记哪些在
正则表达式以任何顺序匹配查询中的所有单词

我正在尝试为一个项目构建一个搜索功能该功能根据用户搜索输入以及它是否与针对项目列出的关键字匹配来缩小项目范围为此我将项目关键字保存在data属性并使用 RegExp 模式将查询与这些关键字进行匹配我目前正在使用这个表达式我知道它不
Woocommerce 让产品显示在存档页面中

我正在尝试让所有产品显示在我商店的存档页面中我想知道他们的id我正在使用我的一个钩子它在 wp head 上运行并检查 if is product category 我想以某种方式访问产品的查询并获取它们的 ID if is prod
Apache 访问 Linux 中的 NTFS 链接文件夹

在 Debian jessie 中使用 Apache2 PHP 当我想在 Apache 的文档文件夹 var www 中创建一个新的小节时我只需创建一个指向我的 php 文件所在的外部文件夹的链接然后只需更改该文件夹的所有者和权限文件夹
如何使用 php 下载/打印页面的特定部分

我有一个 HTML 页面如下 Lorem Ipsum is simply dummy text of the printing and typesetting industry Lorem Ipsum has been the indust
将“php”作为 shell 脚本执行时的自定义 php.ini 文件

我在跑php作为 shell 脚本我不确定 shell脚本是否正确该文件以 usr bin php 这很好用但 MongoDB 类没有正确加载php ini文件具有extension mongo so 未使用我该如何使用它tha
正则表达式匹配bash变量

我正在尝试修改 bash 脚本当前脚本包含 print div class 1 div Where 1可能看起来像 Apprentice Historian Level 1 Historian Level 4 Master Histori
PHP 脚本可以在终端中运行，但不能在浏览器中运行

我正在尝试执行exec命令但我遇到了问题当我运行以下代码时当我通过浏览器运行它时它不起作用但如果我把输出 str将其复制并粘贴到终端中它工作得很好造成这种情况的原因是什么我该如何解决目前我正在运行localhost php
检测并缩短字符串中的所有网址

假设我有一条字符串消息您应该将 file zip 上传到http google com extremelylonglink zip http google com extremelylonglink zip not https stack
Javascript正则表达式用于字母字符和空格？ [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我需要一个
通过 $_SESSION 从一个脚本发送到另一个脚本期间数据丢失

我正在尝试将一个充满属性的对象从一个 PHP 发送到另一个 PHP SESSION object obj where obj是一个用 foreach 循环指定的对象 foreach array of objects as obj SESSI
jQuery Mobile 表单验证

我有一个移动网站除了验证之外一切都工作正常基本上我希望从用户那里获取值然后在单独的页面 process php 上处理它们但是在这样做之前我需要检查以确保字段已填充我已经研究了几种方法来做到这一点但似乎没有一种有效我现在有
跟踪用户何时点击浏览器上的后退按钮

是否可以检测用户何时单击浏览器的后退按钮我有一个 Ajax 应用程序如果我可以检测到用户何时单击后退按钮我可以显示适当的数据任何使用 PHP JavaScript 的解决方案都是优选的任何语言的解决方案都可以只需要我可以翻译成
CURL 中的 data-urlencode 是什么意思？

我搜索了很多个小时试图弄清楚 php curl 中的 data urlencode 是什么我尝试过这个但我认为这是不对的 xmlpost object1 file https www lob com goblue pdf 在文档中是 d
使用正则表达式提取两个短语之间的所有单词[重复]

这个问题在这里已经有答案了我正在尝试使用以下正则表达式提取两个短语之间的所有单词 b item W w W 0 2 1 one W w W 0 3 business b b item W w W 0 2 3 three W w W 0 3
为什么 Composer 降级了我的包？

php composer phar update这样做了删除了 2 3 0 软件包并安装了整个 2 2 5 Zend Framework php composer phar update Loading composer reposito
简单的 PHP 表单：电子邮件附件（代码 Golf）

想象一下一个用户想要在其网站上放置一个表单该表单将允许网站访问者上传一个文件和一条简单的消息该消息将立即通过电子邮件发送即该文件未存储在服务器上或者如果该文件存储在服务器上仅暂时作为文件附件并在邮件正文中添加注释查看更多
对具有混合类型值的数组进行数字排序

我有一个像这样的混合数组 fruits array lemon Lemon 20 banana apple 121 40 50 然后申请sort 其功能如下 sort fruits SORT NUMERIC foreach fruits a

随机推荐

将记录插入 BigQuery 流与简单插入 - 使用 table->insertRow 或 table->inserRows 与使用 bigquery->runquery

如果我使用 table gt insertRow 或 table gt inserRows 函数这意味着我正在将数据流式传输到 bigquery 中 https googlecloudplatform github io google c
为什么这个迭代是随机的？ [复制]

这个问题在这里已经有答案了描述所以我的目的是迭代这个地图并让它按顺序打印每对但是我随机获得了这些对代码和输出 code let map Int String 1000 M 900 CM 500 D 400 CD 100 C 9
为什么 Python 在从末尾索引列表时从索引 -1（而不是 0）开始？ [复制]

这个问题在这里已经有答案了 list a b c d print list 3 Number 3 is d print list 4 Number 4 is a 用另一种方式解释因为 0等于0 如果向后开始0 对于解释器来说是有歧义的如
从样式表设置内容边距

我正在努力将内容边距设置为零QLayoutQt 中带有样式表的对象我可以删除它们QLayout setContentsMargins 0 0 0 0 但我更喜欢从样式表中完成它截至目前这一目标还无法实现使用 QLayout setC
如何在单击按钮时弹出默认 iPhone 键盘

你好当我们点击 UITextField 或 UITextView 时 iPhone 屏幕底部会弹出一个默认键盘我希望 iPhone 键盘出现在单击按钮时然后处理键盘上键入的按键我该怎么做在按钮上添加 touchupinside 事
相当于powershell中的网络使用（列出计算机的连接）？

根据windows帮助NET USE 当不带选项使用时会列出计算机的连接我想在 powershell 中找到一种方法来获取 net use 输出中的远程条目列表我知道作为一种极端措施我可以解析 net use 命令本身的结果但我不
Chef - 如何编写包含用于“执行”的 DSL 的自定义资源

我写了一个厨师definition发布到我们的聊天服务器由于不再推荐定义我如何将其重写为资源我对如何使用事件方式触发代码特别感兴趣 File chat definitions post rb define chat post do
如何从字符串中删除“#”注释？

问题实现一个名为 stripComments code 的 Python 函数其中 code 是一个参数它采用包含 Python 代码的字符串函数 stripComments 返回删除所有注释的代码 I have def strip
数组的反序列化总是给出一个空数组

我有一个自定义抽象基类其中包含子类我已使用 ISerialized 将其序列化反序列化当我对该类的子类的单个实例进行序列化反序列化时一切正常然而当我做一个数组时我总是在反序列化时得到一个空数组序列化是通过 BinaryF
“以管理员身份运行”到底有什么作用？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案在 Windows 7 上我有一个命令行程序由于文件写入权限错误而失败并弹出烦人的消息UAC http en wikipedia or
如何在java中找到两个日期之间的差异持续时间？

我有两个对象DateTime 需要找到他们差异的持续时间我有以下代码但不确定如何继续它以获得预期结果如下所示 Example 11 03 14 09 30 58 11 03 14 09 33 43 elapsed time is 02
锁定等待@synchronized

我有一个罕见的奇怪的情况我的 Objective C iOS 程序被锁定当我闯入调试器时有两个线程并且它们都卡在 synchronized 处除非我完全误解了 synchronized 否则我认为这是不可能的以及该命令的全部意
R ggplot2：时间序列的条形图

我有一个文件显示过去十年股票的月回报率以及整个投资组合的总回报率我想绘制这些变化但我遇到两个问题首先 R 按日期字母顺序重新排序我的数据而不是按日期的时间顺序因为它们在文件中排序其次日期轴太拥挤我只想每十二个月显示一个
如何进一步拆分 JavaScript 对象中的字符串？

我现在有两个对象 obj1 gt logo FinTech startup design obj2 gt logo tech startup design 将它们变成最快的方法是什么 obj1 gt logo FinTech startup
Google Maps API 带有 Infowindows 的多个标记

我正在尝试添加多个标记每个标记都有自己的信息窗口单击时会出现该信息窗口我在获取信息窗口时遇到问题当我尝试时要么只显示一个标记而没有信息窗口谢谢如果您需要更多信息请告诉我
姜戈。类别和子类别

我想在 Django 中进行类别和子类别的导航现在我有这个 127 0 0 1 8000 产品最后一个子类别产品 slug 我想做 127 0 0 1 8000 产品类别子类别子子类别产品 slug 像这样 Food Vege
ThemeData(primaryColor: Colors.red) 和提供 ColorScheme.primary 之间有什么区别

我是 Flutter 新手没有意识到其中的区别通过提供颜色有什么区别 primaryColor like theme ThemeData primaryColor Colors red AND colorScheme like them
如何让 Ruby / Homebrew / RVM 在 Yosemite 上工作？

安装 Yosemite 后我无法运行 brew 或 ruby 我在brew更新时收到此错误 usr local bin brew usr local Library brew rb System Library Frameworks Ru
如何使用PHP数组模拟SQL LEFT JOIN操作？

我有一个连接到多个服务器的应用程序其中一台服务器的 ID 是位于另一台服务器上的表的外键这里的问题是 MySQL 不支持链接服务器所以我无法运行左查询来左连接位于不同服务器上的 2 个表因此我必须使用 PHP 从 2 个不同的服务
Regex / DOMDocument - 匹配和替换不在链接中的文本

我需要以不区分大小写的方式查找并替换所有文本匹配除非文本位于锚标记内例如 p Match this text and replace it p p Don t a href match this text a p p We still

Regex / DOMDocument - 匹配和替换不在链接中的文本

Regex / DOMDocument - 匹配和替换不在链接中的文本 的相关文章

随机推荐

热门标签

Regex / DOMDocument - 匹配和替换不在链接中的文本的相关文章