PHP DOM - 剥离 span 标签，保留其内容

2024-05-19

我希望采用如下标记：

<span class="test">Some text that is <strong>bolded</strong> and contains a <a href="#">link</a>.</span>

并在 PHP 中找到剥离跨度的最佳方法，剩下的就是：

Some text that is <strong>bolded</strong> and contains a <a href="#">link</a>.

我已经阅读了许多有关使用 PHP DOM 而不是正则表达式解析 HTML 的其他问题，但一直无法找到一种方法来使用 PHP DOM 去除跨度，从而使 HTML 内容保持完整。最终目标是能够剥离文档中的所有跨度标签，保留其内容。这可以用 PHP DOM 来完成吗？有没有一种方法可以提供更好的性能并且不依赖字符串解析而不依赖DOM解析？

我已经使用正则表达式来执行此操作，到目前为止没有任何问题：

/<(\/)?(span)[^>]*>/i

但我的兴趣是成为一名更好的 PHP 程序员。由于正则表达式总是有可能因格式错误的标记而出错，因此我正在寻找更好的方法。我还考虑过使用 strip_tags() ，执行如下操作：

public function strip_tags( $content, $tags_to_strip = array() )
{
    // All Valid XHTML tags
 $valid_tags = array(
  'a','abbr','acronym','address','area','b','base','bdo','big','blockquote','body','br','button','caption','cite',
  'code','col','colgroup','dd','del','dfn','div','dl','DOCTYPE','dt','em','fieldset','form','h1','h2','h3','h4',
  'h5','h6','head','html','hr','i','img','input','ins','kbd','label','legend','li','link','map','meta','noscript',
  'object','ol','optgroup','option','p','param','pre','q','samp','script','select','small','span','strong','style',
  'sub','sup','table','tbody','td','textarea','tfoot','th','thead','title','tr','tt','ul','var'
 );

    // Remove each tag to strip from the valid_tags array
 foreach ( $tags_to_strip as $tag ){
  $ndx = array_search( $tag, $valid_tags );
  if ( $ndx !== false ){
   unset( $valid_tags[ $ndx ] );
  }
 }

    // convert valid_tags array into param for strip_tags
 $valid_tags = implode( '><', $valid_tags );
 $valid_tags = "<$valid_tags>";

 $content = strip_tags( $content, $valid_tags );
 return $content;
}

但这仍然是解析字符串，而不是DOM解析。因此，如果文本格式错误，则可能会删除太多内容。许多人很快建议使用简单的 HTML DOM 解析器 http://simplehtmldom.sourceforge.net/，但是看源代码，似乎也是使用正则表达式来解析html。

这可以通过 PHP5 的 DOM 来完成吗？或者有没有更好的方法来剥离标签而保持其内容完整。使用 Tidy 或HTML 净化器 http://htmlpurifier.org/清理文本然后使用 regex / HTML 简单的 HTML DOM 解析器就可以了？

图书馆喜欢phpQuery http://code.google.com/p/phpquery/对于看似简单的任务来说，重量似乎太重了。

我使用以下函数删除节点而不删除其子节点：

function DOMRemove(DOMNode $from) {
    $sibling = $from->firstChild;
    do {
        $next = $sibling->nextSibling;
        $from->parentNode->insertBefore($sibling, $from);
    } while ($sibling = $next);
    $from->parentNode->removeChild($from);    
}

每个例子：

$dom = new DOMDocument;
$dom->load('myhtml.html');

$nodes = $dom->getElementsByTagName('span');
foreach ($nodes as $node) {
    DOMRemove($node);
}
echo $dom->saveHTML();

会给你：

Some text that is <strong>bolded</strong> and contains a <a href="#">link</a>.

虽然这样：

$nodes = $dom->getElementsByTagName('a');
foreach ($nodes as $node) {
    DOMRemove($node);
}
echo $dom->saveHTML();

会给你：

<span class="test">Some text that is <strong>bolded</strong> and contains a link.</span>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PHP DOM - 剥离 span 标签，保留其内容的相关文章

如何在 Laravel 查询中使用多个 OR,AND 条件

我需要 Laravel 查询帮助我的自定义查询返回正确结果 Select FROM events WHERE status 0 AND type public or type private 如何写这个查询Laravel Event w
通过 __get() 通过引用返回 null

快速规格 PHP 5 3 error reporting 1 the highest 我正在使用 get 通过引用技巧神奇地访问对象中任意深度的数组元素快速示例 public function get key return isset t
使用其innerHTML查找元素

请看一下这个 DOM 树 div div span Home1 span div span Home2 span span Home3 span div 现在假设我有一个场景我以某种方式获得了第一个跨度的innerHTMLHome1 是否
如何使用 Facebook SDK API 为页面/网址“点赞”？

我正在使用这段代码 facebook gt api me likes post array url gt http www google com 我收到以下错误 Fatal error Uncaught OAuthException 200
未排序模式的 boost::Spirit 语法

我有一个需要解析的模型模式的一部分可以说它看起来像下面这样 type Standard hostname x y z port 123 属性是元素可能看起来无序属于架构一部分的所有元素都必须出现而不是其他元素所有元素的综合属性都进
如何通过php的require()或include()函数传递变量？

当我使用这个时 require diggstyle code php page page no 警告是无法打开流第 198 行 C xampp htdocs 4ajax gallery core php 中没有错误错误是 Failed
使用先前的反向引用作为命名捕获组的名称

有没有办法使用对先前捕获组的反向引用作为捕获组的名称命名捕获组这可能不可能如果不可能那么这就是一个有效的答案下列 data description some description preg match data matches p
如何阻止直接访问我的 JavaScript 文件？

我使用 Minify 来缩小并缓存所有脚本请求我只希望我的用户能够访问 JavaScript 文件的缩小版本缩小位于www example com min我的脚本位于www example com scripts 如何阻止直接访问doc
限制自己超载外部 API 的速率

我发现了很多信息和脚本示例展示了如何对 API 用户进行速率限制但我无法找到任何示例来说明在施加这些限制时如何对您自己的 API 请求进行速率限制我总是用诸如以下的代码来限制我的脚本sleep or usleep命令但感觉这是一种低
在 C# 中遍历 ANTLR AST 的教程？

有人知道在 C 中遍历 ANTLR 生成的 AST 的教程吗我能找到的最接近的是this https web archive org web 20201019210638 http www manuelabadia com blog Pe
PHP Solr PECL 扩展安装

我已经使用命令安装了 pecl solr pecl install solr 和梨使用 wget http pear php net go pear phar php go pear phar 重启Apache后我仍然收到错误 Fatal
postgreSql 中特定时间后表更新

我已经在 postgres 中创建了表现在我想在特定时间例如 1 小时后更新一行我看到很多问题例如 https dba stackexchange com questions 56424 column auto updated a
MySQL PHP邮政编码比较具体距离

我试图找出比较一个邮政编码用户提供的和一大堆其他邮政编码现在大约有 200 个邮政编码之间的距离的最有效方法相对于加载时间但它会随着时间的推移而增加我不需要任何精确的东西只是在球场上我下载了整个美国的邮政编码 csv 文件
如何在 OS X 上使用 OpenSSL 1.0.1 编译 PHP 5.5.19

我已经安装了 OpenSSL 1 0 1j usr local ssl现在我尝试使用此版本的 OpenSSL 编译 PHP 5 5 19 这是我的配置过程 export CFLAGS arch x86 64 export CXXFLAGS
如何仅使用 PHP5 RecursiveDirectoryIterator 类递归显示具有特定文件类型的文件夹和子文件夹

您好我正在尝试使用 FilterIterator 上的扩展来获取 RecursiveDirectoryIterator 类但由于某种原因它仅在根目录上进行迭代我的代码是这样的 class fileTypeFilter extends
从支付网关重定向回时用户会话丢失

我已将 Cyber source 配置为我的支付网关我能够导航到 cybersource 并进行付款并能够成功重定向回该网站我也可以取消付款并重定向回我的网站我收到来自支付网关的响应但是用户在从支付网关重定向回来时会被注销我正
保存多对多关系，同步/附加不存在？

我有以下两个多对多关系的模型 use Illuminate Database Eloquent Model class Permission extends Model The database table used by the mode
如何使用 PHP 对字符串进行 rot13 处理？

我有一个很大的 php 代码我想手动对其进行编码和解码我的问题是 php 代码里面有很多单引号和双引号因此我在使用时出现错误str rot13 功能如下那么正确的语法是什么以及如何使用下面的函数进行编码 str rot13 That
检查 $_POST 数据

我正在对表单进行一些垃圾邮件检查下面的代码在我的本地主机上正常工作如果为 true 则重定向到 google com 但是当它在生产服务器上时却不起作用执行脚本的其余部分并且不重定向到 Google com if POST SERV
AWK：递归下降 CSV 解析器

响应一个BASH 中的递归下降 CSV 解析器 https codereview stackexchange com questions 11727 need some advice or help with translation and

随机推荐

Haskell Data.Decimal 作为 Aeson 类型

是否可以解析一个数据十进制 https hackage haskell org package Decimal 0 4 2 docs Data Decimal html使用 Aeson 包从 JSON 获取假设我有以下 JSON foo
无法将数据绑定到 Kendo Scheduler

我已经在视图中显示了这个 Kendo Scheduler 但没有任何数据视图上的调度程序 Html Kendo Scheduler
Rails 3.1、Ruby 1.9.2-p180 和 UTF-8 问题

我在使用 UTF 8 字符时遇到一些问题这是 db seeds rb User create username eml first name last name ck email email protected cdn cgi l ema
git 排除与忽略

I use Tower http www git tower com 用于在 Mac 中使用 Git Tower 中的设置具有创建 gitignore 的忽略部分但它还有另一个名为排除的部分似乎可以将排除与 git ls fil
如何创建 HIVE 表来读取分号分隔值

我想创建一个 HIVE 表该表将以分号分隔的值读取但我的代码不断给出错误有没有人有什么建议 CREATE TABLE test details Time STRING Vital STRING sID STRING PARTITION
C++ - 使用枚举生成一副牌

我刚刚开始学习C 对头文件和类结构的概念仍然很陌生我学习Java已经有2年了 C 语法和一些操作有不同的行为我正在尝试制作一副纸牌为了使代码更清晰我想对卡片的花色和值使用枚举然而 Deck 类中的问题是我有一种方法可以使用以下方法
“没有名为‘cv2’的模块”，但已安装

我已经安装了包含 opencv 贡献的 whl 文件因为我想使用 SIFT 算法我在 conda 环境中使用 pip 安装了它所以当我在 conda list 中提示时它会向我显示 opencv python 3 4 5 contr
如何使用 Pygame 将捕获的图像保存到磁盘

这是我的代码它启动网络摄像头 import pygame camera import pygame image import sys pygame camera init cameras pygame camera list camera
当 mstest 成功运行并且所有测试通过时，为什么 PartCover 报告显示 0%

我正在尝试通过 mstest 测试获得代码覆盖率我正在使用 PartCover 2 2 0 36424 问题在于真实的程序集我得到 0 的代码覆盖率注意所有测试都通过在我创建的演示源的演示测试中它运行良好报告很有意义我注意到
如果总和为 0，则查找并删除带标题的最后一列

我想创建一个宏查找带有标题的最后一列并仅当该列的总和等于零时才将其删除到目前为止这是我尝试过的 Dim LastCol As Long Dim i As Long With ThisWorkbook Sheets Sheet1 Fo
在 (Liberty) 批处理块步骤中，从该步骤之前发出的数据库查询滚动浏览 ResultSet 时，获取“ResultSet 已关闭”

我正在从 DB2 表读取数据并将其转储到文件中我在块侦听器的 beforeChunk 中执行简单的选择查询并使用步骤上下文将其获取到 itemreader 中在块中我将检查点策略设置为 item 将 itemcount 设置为 5
Kotlin super.finalize()

当迁移到Kotlin from Java我遇到了一个问题我覆盖了Object s finalize method Override protected void finalize throws Throwable stopTimer su
DC.js 中的工具提示（D3 库）

DC js 具有强大的内置功能可显示每个工具提示文档 https github com dc js dc js blob master web docs api latest md title titleFunction 功能无论如何
Chart.js - 在哪里可以找到应该注册哪些组件？

我是 Chart js 的新手看到了 v3 文档 Chart js 3 是可摇树的因此有必要导入并注册您将要使用的控制器元素比例和插件我想知道在哪里可以找到这些用于注册的东西例如需要注册什么这个例子 https www char
Powershell 将单个字符串与多个正则表达式匹配？

除了依次迭代每个正则表达式之外是否有一种更 powershelly 的方式将单个字符串与正则表达式的数组集合进行匹配我真正想做的是这样的 database Name match includeRegexArray 考虑到 Powers
如何在Redis中只保存一个数据库？

我是 Redis 新手有一个与备份相关的问题目前我有一个实例在 Windows 服务器上运行在这个实例中我当前有一项工作将数据存储在一个数据库中我不想备份这些数据我必须创造一份新工作我的第一个想法是将数据存储在另一个数据
如何在JMeter中实现pacing？

我在 jMeter 中模拟以下场景 10 个用户 ThreadGroup 正在登录每个用户 ThreadGroup 应等待延迟 10 秒才能启动下一个用户 ThreadGroup 我该如何实施现在我有这样的事情线程组 10us Ht
将 R (ramda) 导入 typescript .ts 文件

我正在尝试使用Ramda js如下
如何按多个项目搜索/过滤列表？

我正在寻找一个示例或者可能是一个关于通过在文本框中输入的多个项目来过滤搜索项目列表的方法的一点提示假设我有一个列表 ul li Coffee li li Tea li li Milk li li Water li li Juice l
PHP DOM - 剥离 span 标签，保留其内容

我希望采用如下标记 span class test Some text that is strong bolded strong and contains a a href link a span 并在 PHP 中找到剥离跨度的最佳方法剩

PHP DOM - 剥离 span 标签，保留其内容

PHP DOM - 剥离 span 标签，保留其内容 的相关文章

随机推荐

热门标签

PHP DOM - 剥离 span 标签，保留其内容的相关文章