PHP 中的 DOM 文档

2024-01-09

我刚刚开始阅读有关 DOM 的文档和示例，以便抓取和解析文档。

例如，我的部分文档如下所示：

    <div id="showContent">
    <table>
    <tr>
        <td>
         Crap
        </td>
    </tr>
<tr>
          <td width="172" valign="top"><a href="link"><img height="91" border="0" width="172" class="" src="img"></a></td>
          <td width="10">&nbsp;</td>
          <td valign="top"><table cellspacing="0" cellpadding="0" border="0">
              <tbody><tr>
                <td height="30"><a class="px11" href="link">title</a><a><br>
                    <span class="px10"></span>
                </a></td>
              </tr>
              <tr>
                <td><img height="1" width="580" src="crap"></td>
              </tr>
              <tr>
                <td align="right">
                    <a href="link"><img height="16" border="0" width="65" src="/buy"></a>
                </td>
              </tr>
              <tr>
                <td valign="top" class="px10">
                    <p style="width: 500px;">description.</p>
                </td>
              </tr>
          </tbody></table></td>
        </tr>
    <tr>
        <td>
Crap
        </td>
    </tr>
    <tr>
        <td>
         Crap
        </td>
    </tr>
    </table>
    </div>

我正在尝试使用以下代码来获取所有tr标记并分析其中是否有垃圾或信息：

$dom = new DOMDocument();
@$dom->loadHTML($html);

$xpath = new DOMXPath($dom);


$tags = $xpath->query('.//div[@id="showContent"]');
foreach ($tags as $tag) {
    $string="";
    $string=trim($tag->nodeValue);
    if(strlen($string)>3) {
        echo $string;
        echo '<br>';
    }
}

但是我得到的只是没有标签的剥离字符串，例如：

Crap

Crap
Title
Description

但我想得到：

<tr>
   <td>Crap</td>
</tr>
<tr>
   <a href="link">title</a>
</tr>

如何保留html节点（标签）？

如果你想使用 DOM，你必须理解这个概念。 DOM 文档中的所有内容（包括 DOMDocument）都是一个 Node。

DOMDocument 是节点的分层树结构。它从根节点开始。该根节点可以有子节点，并且所有这些子节点都可以有自己的子节点。基本上所有的东西都在一个DOMDocument是某种节点类型，可以是元素、属性或文本内容。

          HTML                               Legend: 
         /    \                              UPPERCASE = DOMElement
       HEAD  BODY                            lowercase = DOMAttr
      /          \                           "Quoted"  = DOMText
    TITLE        DIV - class - "header"
     |             \
"The Title"        H1
                    |
           "Welcome to Nodeville"

上图显示了带有一些节点的 DOMDocument。有一个根元素 (HTML) 和两个子元素（HEAD 和 BODY）。连接线称为轴。如果沿着轴向下追踪到 TITLE 元素，您将看到它有一个 DOMText 叶子。这很重要，因为它说明了一个经常被忽视的事情：

<title>The Title</title>

不是一个，而是两个节点。具有 DOMText 子级的 DOMElement。同样，这个

<div class="header">

实际上是三个节点：DOMElement 和持有 DOMText 的 DOMAttr。因为所有这些都从 DOMNode 继承了它们的属性和方法，所以熟悉DOMNode 类。 http://de.php.net/manual/en/class.domnode.php

实际上，这意味着您获取的 DIV 链接到文档中的所有其他节点。您可以随时一直到达根元素或向下到达叶元素。一切都在那里。您只需查询或遍历文档即可获取所需信息。

无论您是否通过迭代来做到这一点childNodes of the DIV or use getElementByTagName()或者 XPath 由您决定。您只需了解您使用的不是原始 HTML，而是代表整个 HTML 文档的节点。

如果您需要帮助从文档中提取特定信息，则需要澄清要从中获取哪些信息。例如，您可能会问如何从表中获取所有链接，然后我们可以回答如下内容：

$div = $dom->getElementById('showContent');
foreach ($div->getElementsByTagName('a') as $link) 
{
    echo $dom->saveXML($link);
}

但除非您更具体，否则我们只能猜测哪些节点可能相关。

如果您需要有关如何使用 DOM 的更多示例和代码片段，请浏览我之前对相关问题的回答：

https://stackoverflow.com/search?q=user%3A208809+DOM https://stackoverflow.com/search?q=user%3A208809+DOM

到目前为止，您可能拥有的 DOM 的每个基本到中等用例都应该有一个片段。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PHP 中的 DOM 文档的相关文章

WordPress 中的 add_action 函数

嗯我正在学习创建一个 WordPress 插件我下载了一个并阅读了代码然后我看到了这个我假设 foo 是它将添加操作的标签但是 array 到底是做什么的呢 add action foo array foo1 foo2 我在看ht
PHP MySql 百分比

我的问题是关于百分比我不是专家所以我会尽力以更好的方式进行解释我的 mysql 服务器中有一个表假设有 700 条记录如下所示 Name country language Birth Lucy UK EN 1980 Mari Ca
如何从 Laravel 中的表中选择所有列名称？

我试图从表中获取所有列名Teller 功能 public function getTableColumns tables return DB select DB raw SELECT COLUMN NAME DATA TYPE COLUMN
openssl_pkey_get_details($res) 不返回公共指数

我在用着这个例子 https stackoverflow com a 12575951 2016196使用 php 生成的密钥进行 javascript 加密openssl图书馆但是 details openssl pkey get de
单词之间没有空格的语言（例如亚洲语言）中的断词？

我想让 MySQL 全文搜索适用于日语和中文文本以及任何其他语言问题在于这些语言以及可能其他语言通常在单词之间没有空格当您必须键入与文本中相同的句子时搜索没有用我不能只在每个字符之间添加空格因为英语也必须有效我想用 PHP 或
如何解压 PHP/Lumen/Laravel 的 gzip 请求？

我收到来自第三方的 gzip 编码文本请求 1mb 所以这是有道理的我的测试路线 router gt post testgzip function Illuminate Http Request request decompressed
在 php 中为类自动生成 getter 和 setter 的最佳方法是什么？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我经常创建一个包含一些私有变量的类当设置此类的实例时应该可以使用 getter 和 setter 填充该类的所有变量有没有一种简单的方法可
如何在响应ajax codeigniter后停止执行其他控制器

我想知道如何在响应输出 json 数据后停止执行函数和涉及的其他控制器就我这里的情况而言我只是打电话test 函数于dashboard控制器 In dashboard构造函数将执行MY Login library In MY Login
如何使用 php 下载/打印页面的特定部分

我有一个 HTML 页面如下 Lorem Ipsum is simply dummy text of the printing and typesetting industry Lorem Ipsum has been the indust
扩展蓝图类？

我想覆盖timestamps 函数中发现Blueprint班级我怎样才能做到这一点 e g public function up Schema create users function Blueprint table table gt
蛋糕控制台 2.2.1：烘焙错误

运行 MAMP 的 OSX 机器 CakePHP 2 2 1 已正确安装和配置这意味着当我浏览到 Index php 文件时所有绿色条都显示出来我已经完成了博客教程并且正在开发我的第二个应用程序其中脚手架已启动并运行现在我第一次
是否可以使用 PHP 重定向发送 POST 数据？

更新这不是重复的如何使用 PHP 发送 POST 请求 https stackoverflow com questions 5647461 how do i send a post request with php 那里的解决方案对我不起
在 PHP 中撤销 Google 访问令牌

正如标题所示我想以编程方式撤销授予的访问令牌即在 PHP 中我发现这个他们的网站 https developers google com identity protocols OAuth2WebServer tokenrevoke 但
在 Wordpress 站点中进行 AJAX 调用时出现问题

我在使用 Wordpress 站点功能的 AJAX 部分时遇到了一些问题该功能接受在表单上输入的邮政编码使用 PHP 函数来查找邮政编码是否引用特定位置并返回到该位置的永久链接我的第一个问题是关于我构建的表单现在我的表单操作是空白的
PHP preg_filter 返回意外的长值

尝试在 Woocommerce 中删除标签并过滤值但无法以正确的格式获取它有东西有腥味我正在使用WC gt cart gt get cart subtotal 来检索该值在此示例中我的值是 2 429kr 原始返回值是 span
jQuery Mobile 表单验证

我有一个移动网站除了验证之外一切都工作正常基本上我希望从用户那里获取值然后在单独的页面 process php 上处理它们但是在这样做之前我需要检查以确保字段已填充我已经研究了几种方法来做到这一点但似乎没有一种有效我现在有
在 apache docker 容器中运行虚拟主机

我在同一个 apache 容器中有两个 php 应用程序我试图在端口上运行其中一个应用程序因为它需要通过根域而不是子文件夹进行访问我想在端口 8060 上运行应用程序我尝试使用 apache 虚拟主机执行此操作但它不会加载页面 h
PHP HEREDoc (EOF) 语法在 Sublime Text 3 上突出显示与正斜杠的差异

我不熟悉 Sublime Text 3 如何使用语法突出显示例如如果它纯粹依赖于主题或者它内置于主题运行的标准中但就我而言使用 PHP 的 HERE 文档和转发存在一些语法突出显示差异斜线一旦出现正斜杠 ST3 就会认为以下所有
Laravel 中只向登录用户显示按钮

如果我以 John 身份登录如何才能只显示 John 的红色按钮而不显示 Susan 的红色按钮测试系统环境 Win10 Laravel5 4 Mysql5 7 19 table class table table responsive
为什么 Composer 降级了我的包？

php composer phar update这样做了删除了 2 3 0 软件包并安装了整个 2 2 5 Zend Framework php composer phar update Loading composer reposito

随机推荐

Spring 安全和 JSON 身份验证

我在 spring spring mvc 中有一个完全使用 JSON 通信的应用程序现在我需要通过 JSON 使用 spring security 3 使用 LdapAuthenticationProvider 对我的应用程序进行身份验证
Doctrine 2.0 中未加载延迟加载属性

我正在使用 PHP 和 Doctrine 2 0 所有实体都工作正常除了下面详细介绍的实体关系或者其他实体在我没有注意到的地方失败考虑以下实体 Entity class Target ManyToOne targetEntity k
根据浏览器应用不同的 CSS 宽度属性？（IE8、FF）

我必须将宽度应用于 div 宽度值需要根据浏览器的不同而变化我无法应用条件 css 那么有什么办法可以做到这一点吗 FF apply width 720px IE8 apply width 690px 可以使用一些技巧将它们组合起来以便
如何在Android中注册睡眠事件？

我正在开发 Android 3 0 我需要在我的应用程序中知道设备何时进入睡眠关闭屏幕我如何注册此意图事件以便在发生这种情况时我能够运行一些操作 BroadcastReceiver 中是否有任何通知此操作的操作 This http
图库中的图像自动旋转 - Android

在我的 Android 应用程序中我正在从设备库加载图像在这方面我面临着有关图像方向的问题当我从图库加载高分辨率图像时它们会自动旋转然后显示在我的视图中我尝试了有关此问题的各种解决方案但无法得到正确的解决方案我提到获取方向
如何正确转义 Makefile 的数据？

我正在动态生成config mk带有将由 Makefile 使用的 bash 脚本该文件的构造如下 cat gt config mk lt
DMA 与中断驱动的 I/O

我不太清楚 DMA 和中断 I O 之间的区别当前正在阅读操作系统概念第 7 版具体来说我不确定在这两种情况下何时会发生中断以及在这两种情况下 CPU 在什么时候可以自由地执行其他工作我一直在读但不一定能调和的东西中断驱动通
为什么 ICC 在 x86 上的汇编中生成“inc”而不是“add”？

在摆弄简单的 C 代码时我注意到一些奇怪的事情 ICC为何产生incl eax在为增量生成的汇编代码中而不是addl 1 eax 不过 GCC 的行为符合预期使用add 示例代码 O3用于 GCC 和 ICC int A B C D E
如何在 Windows 上使用 GCC 11.1 构建 Qt 5.13.2？

我已经使用 GCC MinGW w64 在 Windows 上成功构建 Qt 5 很长时间了当我在 GCC 11 1 上尝试相同的操作时构建失败并出现奇怪的错误消息我该怎么做才能让它发挥作用我自己使用以下方法构建了编译器develo
是否可以在不进行额外分配的情况下移动和修改向量？

考虑以下代码 let u Vec
文件恢复软件如何工作？

我想做一些简单的文件恢复软件我想尝试恢复通过按 Shift Delete 删除的文件我在 Windows 中工作任何人都可以向我展示任何可以帮助我以编程方式执行此操作的链接或文档吗我了解 C C NET 有什么指点吗据我所知文件
Python Poetry 的依赖版本语法

The Poetry https github com sdispater poetry项目是Python的依赖管理系统它使用新的pyproject toml https www python org dev peps pep 0518
从 CloudKit 获取 CKAsset 图像非常慢

我使用 CloudKit 作为我的 iOS 应用程序的服务器后端我用它来容纳一些相对静态的数据以及一些图像 CKAsset 当我需要从公共数据库中实际获取这些资产时我遇到了问题它们的加载速度极其缓慢我的用例是将图像加载到集合视图内的
如何从 std::thread 更改 GUI？

首先我尝试使用setVisible from thread 有一个事件 void MainWindow OnShow Start OnShow actions ui gt LoadingBox gt setVisible true std
如何让 Observable 返回转换后的项目数组 (Rxjs)

我有一个生成 json 产品列表的端点我在产品代码中定义了一个自定义类类型我试图从端点获取数据并将产品的 json 数组转换为 Product 类的数组示例 API json 根据我的实际数据简化 products id 1 nam
多次打开和关闭 php 标签会增加页面负载吗？ [复制]

这个问题在这里已经有答案了可能的重复开始结束标签和性能 https stackoverflow com questions 2437144 opening closing tags performance 这是一个新手问题但我在网上
Python `in` 与 `__contains__` 的功能

我实施了 contains 前几天第一次在课堂上使用该方法但其行为并不符合我的预期我怀疑其中有一些微妙之处in https docs python org 2 library operator html我不明白的运算符我希望有人能启发
通过静态构造函数创建 ALV 时的 NULL 对象引用。为什么？

我正在尝试运行从教程复制的这个程序但我在这一行得到 Null 异常 CALL METHOD list gt SET TABLE FOR FIRST DISPLAY 我的理解是列表对象应该在类构造函数中创建 Method CLASS CON
Postman 获取环境名称作为变量

我想知道是否可以将环境名称作为 Postman 中的环境变量目前我正在每个环境的环境变量中手动设置它但它可以从某种应用程序变量中检索这会很棒我在文档中找不到任何内容这应该为您提供当前选择的环境的名称 pm environment
PHP 中的 DOM 文档

我刚刚开始阅读有关 DOM 的文档和示例以便抓取和解析文档例如我的部分文档如下所示 div table tr td Crap td tr tr td width 172 valign top a href link img heigh

PHP 中的 DOM 文档

PHP 中的 DOM 文档 的相关文章

随机推荐

热门标签

PHP 中的 DOM 文档的相关文章