使用 HTMLAgilityPack 仅提取页面文本

2023-11-25

好的，我对 HTMLAgilityPack 中使用的 XPath 查询非常陌生。

所以让我们考虑这个页面http://health.yahoo.net/articles/healthcare/what-your-favorite-flavor-says-about-you。我想要的是只提取页面内容而不提取其他内容。

因此，我首先删除脚本和样式标签。

Document = new HtmlDocument();
        Document.LoadHtml(page);
        TempString = new StringBuilder();
        foreach (HtmlNode style in Document.DocumentNode.Descendants("style").ToArray())
        {
            style.Remove();
        }
        foreach (HtmlNode script in Document.DocumentNode.Descendants("script").ToArray())
        {
            script.Remove();
        }

之后我尝试使用 //text() 来获取所有文本节点。

foreach (HtmlTextNode node in Document.DocumentNode.SelectNodes("//text()"))
        {
            TempString.AppendLine(node.InnerText);
        }

然而，我不仅得到的不仅仅是文本，我还得到了许多 /r /n 字符。

请我在这方面需要一些指导。

如果你考虑到这一点script and style节点只有子节点的文本节点，您可以使用此 XPath 表达式来获取不在子节点中的文本节点script or style标签，这样你就不需要事先删除节点：

//*[not(self::script or self::style)]/text()

您可以使用 XPath 进一步排除仅是空白的文本节点normalize-space():

//*[not(self::script or self::style)]/text()[not(normalize-space(.)="")]

或更短的

//*[not(self::script or self::style)]/text()[normalize-space()]

但您仍然会得到可能具有前导或尾随空格的文本节点。这可以在您的应用程序中按照 @aL3891 的建议进行处理。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

NET

xpath

xmlparsing

htmlagilitypack

使用 HTMLAgilityPack 仅提取页面文本的相关文章

动态加载程序集的应用程序配置

我正在尝试将模块动态加载到我的应用程序中但我想为每个模块指定单独的 app config 文件假设我的主应用程序有以下 app config 设置
在结构中使用 typedef 枚举并避免类型混合警告

我正在使用 C99 我的编译器是 IAR Embedded workbench 但我认为这个问题对于其他一些编译器也有效我有一个 typedef 枚举其中包含一些项目并且我向该新类型的结构添加了一个元素 typedef enum fo
ASP.NET MVC：这个业务逻辑应该放在哪里？

我正在开发我的第一个真正的 MVC 应用程序并尝试遵循一般的 OOP 最佳实践我正在将控制器中的一些简单业务逻辑重构到我的域模型中我最近一直在阅读一些内容很明显我应该将逻辑放在域模型实体类中的某个位置以避免出现贫血域模型反模式
用于检查类是否具有运算符/成员的 C++ 类型特征[重复]

这个问题在这里已经有答案了可能的重复是否可以编写一个 C 模板来检查函数是否存在 https stackoverflow com questions 257288 is it possible to write a c template
.NET 中是否有内置函数可以对密码进行哈希处理？

我看到这个问题加密散列数据库中的纯文本密码 https stackoverflow com questions 287517 encrypting hashing plain text passwords in database 我知道我
Asp.NET WebApi 中类似文件名称的路由

是否可以在 ASP NET Web API 路由配置中添加一条路由以允许处理看起来有点像文件名的 URL 我尝试添加以下条目WebApiConfig Register 但这不起作用使用 URIapi foo 0de7ebfa 3a55
在 Windows 窗体中保存带有 Alpha 通道的单色位图会保存不同（错误）的颜色

在 C NET 2 0 Windows 窗体 Visual Studio Express 2010 中我保存由相同颜色组成的图像 Bitmap bitmap new Bitmap width height PixelFormat Form
OleDbDataAdapter 未填充所有行

嘿我正在使用 DataAdapter 读取 Excel 文件并用该数据填充数据表这是我的查询和连接字符串 private string Query SELECT FROM Sheet1 private string ConnectStr
Clang 3.1 + libc++ 编译错误

我已经构建并安装了在前缀下 alt LLVM Clang trunk 2012 年 4 月 23 日在 Ubuntu 12 04 上成功使用 GCC 4 6 然后使用此 Clang 构建的 libc 当我想使用它时我必须同时提供 lc
如何从 appsettings.json 文件中的对象数组读取值

我的 appsettings json 文件 StudentBirthdays Anne 01 11 2000 Peter 29 07 2001 Jane 15 10 2001 John Not Mentioned 我有一个单独的配置类 p
在 ASP.NET 5 中使用 DI 调用构造函数时解决依赖关系

Web 上似乎充斥着如何在 ASP NET 5 中使用 DI 的示例但没有一个示例显示如何调用构造函数并解决依赖关系以下只是众多案例之一 http social technet microsoft com wiki contents a
重载<<的返回值

include
显示UnityWebRequest的进度

我正在尝试使用下载 assetbundle统一网络请求 https docs unity3d com ScriptReference Networking UnityWebRequest GetAssetBundle html并显示进度根
while 循环中的 scanf

在这段代码中 scanf只工作一次我究竟做错了什么 include
如何序列化/反序列化自定义数据集

我有一个 winforms 应用程序它使用强类型的自定义数据集来保存数据进行处理它由数据库中的数据填充我有一个用户控件它接受任何自定义数据集并在数据网格中显示内容这用于测试和调试为了使控件可重用我将自定义数据集视为普通的 Sy
如何使用 C# / .Net 将文件列表从 AWS S3 下载到我的设备？

我希望下载存储在 S3 中的多个图像但目前如果我只能下载一个就足够了我有对象路径的信息当我运行以下代码时出现此错误遇到错误消息读取对象时访问被拒绝我首先做一个亚马逊S3客户端基于我的密钥和访问配置的对象连接到服务器然后创
对现有视频添加水印

我正在寻找一种用 C 在视频上加水印的方法就像在上面写文字一样图片或文字标签我该怎么做谢谢您可以使用 Nreco 视频转换器代码看起来像 NReco VideoConverter FFMpegConverter wrap new
如何从两个不同的项目中获取文件夹的相对路径

我有两个项目和一个共享库用于从此文件夹加载图像 C MainProject Project1 Images 项目1的文件夹 C MainProject Project1 Files Bin x86 Debug 其中有project1 ex
混合 ExecutionContext.SuppressFlow 和任务时 AsyncLocal.Value 出现意外值

在应用程序中由于 AsyncLocal 的错误意外值我遇到了奇怪的行为尽管我抑制了执行上下文的流程但 AsyncLocal Value 属性有时不会在新生成的任务的执行范围内重置下面我创建了一个最小的可重现示例来演示该问题 pr
C# 模拟VolumeMute按下

我得到以下代码来模拟音量静音按键 DllImport coredll dll SetLastError true static extern void keybd event byte bVk byte bScan int dwFlags

随机推荐

IE9数组不支持indexOf

基于http ie microsoft com testdrive HTML5 ECMAScript5Array Default html 我认为 IE9 支持数组中的 indexOf 但以下中断知道为什么吗错误信息如下 SCRIPT4
Laravel phpunit 没有获得正确的 url

我已将 app url 配置值更改为正确的 url http testing local 用于本地测试但是当我运行 phpunit 测试并尝试调用时它正在尝试查询http localhost而不是 app url 的值我需要做什么才
如何使用Chart.js显示折线图数据集点标签？

我的设计要求是显示包含 5 个趋势数据集的折线图沿着笔画线的每个数据值需要在其各自的数据点处显示数据值标签不幸的是我在 Charts js 中找不到满足此要求的选项有解决方法可以帮助我吗我也在小提琴上发布了这个 http jsfi
我们如何改变SQL Server的页面大小？

Per MSDN 在 SQL Server 中页大小为 8 KB 这意味着 SQL Server 数据库每兆字节有 128 页我们如何更改页面大小例如4 KB 或 12 KB 等还有是不是因为 innate硬件限制页面大小选择
如何使用 lxml 从本地文件或 url 解析 xml？

我尝试使用lxml来解析xml 但我有一个问题 ValueError invalid x escape 这是我的代码 from lxml import etree root etree fromstring C Users hptphuon
为什么必须调用 URLConnection#getInputStream 才能写入 URLConnection#getOutputStream？

我正在尝试写信给URLConnection getOutputStream 但是在我调用之前没有实际发送数据URLConnection getInputStream 即使我设定URLConnnection doInput为false 仍然
如何从节点中获取 href 属性值？

我们从供应商那里获得了一个 XML 文档我们需要使用他们的样式表执行 XSL 转换以便我们可以将生成的 HTML 转换为 PDF 实际的样式表在href的属性 xml stylesheetXML 文档中的定义有什么方法可以使用 C 获
程序集绑定错误：绑定结果：hr = 0x80070002。该系统找不到指定的文件

我有一个 Visual Studio 2010 解决方案其中包含一个类库 ProjectA 和两个 Sharepoint 项目 ProjectB 和 ProjectC 依赖顺序是 ProjectB 引用 ProejctA ProjectC
如何阻止 webview2 打开新的浏览器窗口而不是在浏览器内部

我想知道是否有办法阻止 webview2 组件打开浏览器窗口以获胜形式 What is happening 我到处找但没找到但我确实找到了但它使用了 XAML UWP 一页使用了 xaml 但代码无法工作因为它的 XAML 和我使
使用字符串类型参数访问枚举时出现 TypeScript TS7015 错误

我是 TypeScript 新手我不明白需要做什么来修复生成 TS7015 错误的行使用字符串变量引用枚举成员因为紧随其后的行不会出错使用字符串引用枚举成员字符串文字 enum State Happy 0 Sad 1 Drunk
使用 Node.JS 设置 iOS Firebase Flashlight/ElasticSearch Heroku

我正在使用 Firebase 后端使用 Swift 构建 iOS 应用程序我的应用程序需要高级搜索选项有人告诉我应该通过此 github 链接使用 Flashlight ElasticSearchhttps github com fir
如何解析 Android 版 Google Places GeoDataApi 中的地址（缺少地址组件）

我们使用与示例应用程序类似的 Google Places API 预测选择结果后我们使用以下方法获取预测位置的详细信息 Places GeoDataApi getPlaceById mGoogleApiClient placeId 这工
释放连接或关闭连接

以下两种方法哪一种性能更好 using var DB Connection s new DBConnection todo interact with database connection 要不就 DB Connection s Clos
在 Mathematica 中查找数字范围的频率

给定 Mathematica 中的数字列表我如何从该列表中提取数字之间的数字总数a and b我指定的最直接的方法很简单 Count data x a lt x lt b 然而对于大多数数据来说有更快的方法这要归功于 Carl W
如何在 Flutter 中从 Firebase Auth 获取用户 ID？

我想通过将用户 ID 作为字段分配给文档来在 Firestore 中保存用户相关数据如何从 Firebase Auth 获取用户 ID 或者有更好的方法在 Firestore 中存储用户数据吗我无法以这种方式从 Firebase Aut
内存泄漏调试

如果没有跟踪工具有哪些检测调试内存泄漏的技术拦截所有分配和释放内存的函数根据平台的不同列表可能如下所示 malloc calloc realloc strdup getcwd free 除了执行这些函数最初执行的操作之外还将有关
如何强制 ssh 从命令行接受新的主机指纹？

我得到了标准 WARNING REMOTE HOST IDENTIFICATION HAS CHANGED IT IS POSSIBLE THAT SOMEONE IS DOING SOMETHING NASTY Someone could
使下拉菜单可滚动

我正在尝试使用 CSS 和 jquery 在 HTML 页面中实现下拉菜单以下是 HTML 和 JavaScript 代码的示例
Chrome tabs.onActivated.addListener 抛出“未定义”TypeError

我正在做一个 chrome 扩展文档中有这个说法 about chrome tabs onActivated 每当我尝试放置chrome tabs onActivated addListener 它说Uncaught TypeError
使用 HTMLAgilityPack 仅提取页面文本

好的我对 HTMLAgilityPack 中使用的 XPath 查询非常陌生所以让我们考虑这个页面http health yahoo net articles healthcare what your favorite flavor s

使用 HTMLAgilityPack 仅提取页面文本

使用 HTMLAgilityPack 仅提取页面文本 的相关文章

随机推荐

热门标签

使用 HTMLAgilityPack 仅提取页面文本的相关文章