获取html页面上的所有链接?

2023-11-22

我正在做一个小爱好项目。我已经编写了获取 url、下载标头并返回 mime 类型/内容类型的代码。

然而,在此之前的步骤是我坚持的步骤 - 我需要基于标签内部和引号中检索页面上所有网址的内容,即

...
<link rel='shortcut icon' href="/static/favicon.ico" type="image/x-icon" />
...

会找到网站图标链接。

.net 库中有什么有用的东西吗?或者这是否必须是正则表达式的情况?


我会考虑使用Html 敏捷包.

以下是直接来自示例页面的示例,说明如何查找页面中的所有链接:

 HtmlWeb hw = new HtmlWeb();
 HtmlDocument doc = hw.Load(/* url */);
 foreach(HtmlNode link in doc.DocumentNode.SelectNodes("//a[@href]"))
 {

 }
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

获取html页面上的所有链接? 的相关文章

  • 为什么 int8_t 和用户通过 cin 输入显示奇怪的结果[重复]

    这个问题在这里已经有答案了 一小段代码让我发疯 但希望你能阻止我跳出窗外 看这里 include
  • 如何在c++中读取pcap文件来获取数据包信息?

    我想用 C 编写一个程序来读取 pcap 文件并获取数据包的信息 例如 len sourc ip flags 等 现在我找到了如下代码 我认为它会帮助我获取信息 但是我有一些疑问 首先我想知道应该将哪个库添加到我的程序中 然后什么是 pca
  • 如何让 Swagger 插件在自托管服务堆栈中工作

    我已经用 github 上提供的示例重新提出了这个问题 并为任何想要自己运行代码的人提供了一个下拉框下载链接 Swagger 无法在自托管 ServiceStack 服务上工作 https stackoverflow com questio
  • 为什么 appcmd.exe 解锁配置在 Azure 模拟器上不起作用?

    我最近升级到 Azure 2 1 SDK 现在我的部分功能遇到了问题web config在计算模拟器上运行时处于 Web 角色中 我的web config包含这个
  • 提交后禁用按钮

    当用户提交付款表单并且发布表单的代码导致 Firefox 中出现重复发布时 我试图禁用按钮 去掉代码就不会出现这个问题 在firefox以外的任何浏览器中也不会出现这个问题 知道如何防止双重帖子吗 System Text StringBui
  • MVC 在布局代码之前执行视图代码并破坏我的脚本顺序

    我正在尝试将所有 javascript 包含内容移至页面底部 我正在将 MVC 与 Razor 一起使用 我编写了一个辅助方法来注册脚本 它按注册顺序保留脚本 并排除重复的内容 Html RegisterScript scripts som
  • 复制目录内容

    我想将目录 tmp1 的内容复制到另一个目录 tmp2 tmp1 可能包含文件和其他目录 我想使用C C 复制tmp1的内容 包括模式 如果 tmp1 包含目录树 我想递归复制它们 最简单的解决方案是什么 我找到了一个解决方案来打开目录并读
  • 为什么 Google 测试会出现段错误?

    我是 Google Test 的新手 正在尝试提供的示例 我的问题是 当我引入失败并设置GTEST BREAK ON FAILURE 1 或使用命令行选项 GTest 将出现段错误 我正在考虑这个例子 https code google c
  • 由 IHttpClientFactory 注入时模拟 HttpClient 处理程序

    我创建了一个自定义库 它会自动为依赖于特定服务的 Polly 策略设置HttpClient 这是使用以下方法完成的IServiceCollection扩展方法和类型化客户端方法 一个简化的例子 public static IHttpClie
  • 在 Visual Studio 2010 中从 Fortran 调用 C++ 函数

    我想从 Fortran 调用 C 函数 为此 我在 Visual Studio 2010 中创建了一个 FORTRAN 项目 之后 我将一个 Cpp 项目添加到该 FORTRAN 项目中 当我要构建程序时出现以下错误 Error 1 unr
  • 为什么调用非 const 成员函数而不是 const 成员函数?

    为了我的目的 我尝试包装一些类似于 Qt 共享数据指针的东西 经过测试 我发现当应该调用 const 函数时 会选择它的非 const 版本 我正在使用 C 0x 选项进行编译 这是一个最小的代码 struct Data int x con
  • 从 Linux 内核模块中调用用户空间函数

    我正在编写一个简单的 Linux 字符设备驱动程序 以通过 I O 端口将数据输出到硬件 我有一个执行浮点运算的函数来计算硬件的正确输出 不幸的是 这意味着我需要将此函数保留在用户空间中 因为 Linux 内核不能很好地处理浮点运算 这是设
  • 如何在 32 位或 64 位配置中以编程方式运行任何 CPU .NET 可执行文件?

    我有一个可在 32 位和 64 位处理器上运行的 C 应用程序 我试图枚举给定系统上所有进程的模块 当尝试从 64 位应用程序枚举 32 位进程模块时 这会出现问题 Windows 或 NET 禁止它 我认为如果我可以从应用程序内部重新启动
  • 使用自定义堆的类似 malloc 的函数

    如果我希望使用自定义预分配堆构造类似 malloc 的功能 那么 C 中最好的方法是什么 我的具体问题是 我有一个可映射 类似内存 的设备 已将其放入我的地址空间中 但我需要获得一种更灵活的方式来使用该内存来存储将随着时间的推移分配和释放的
  • 如何禁用 fread() 中的缓冲?

    我正在使用 fread 和 fwrite 读取和写入套接字 我相信这些函数用于缓冲输入和输出 有什么方法可以在仍然使用这些功能的同时禁用缓冲吗 Edit 我正在构建一个远程桌面应用程序 远程客户端似乎 落后于服务器 我不知道可能是什么原因
  • 使用管道时,如果子进程数量大于处理器数量,进程是否会被阻塞?

    当子进程数量很大时 我的程序停止运行 我不知道问题是什么 但我猜子进程在运行时以某种方式被阻止 下面是该程序的主要工作流程 void function int process num int i initial variables for
  • 如何在非控制台应用程序中查看 cout 输出?

    输出到调试窗口似乎相当繁琐 我在哪里可以找到cout如果我正在编写非控制台信息 则输出 Like double i a b cout lt lt b lt lt endl I want to check out whether b is z
  • 如果没有抽象成员,基类是否应该标记为抽象?

    如果一个类没有抽象成员 可以将其标记为抽象吗 即使没有实际理由直接实例化它 除了单元测试 是的 将不应该实例化的基类显式标记为抽象是合理且有益的 即使在没有抽象方法的情况下也是如此 它强制执行通用准则来使非叶类抽象 它阻止其他程序员创建该类
  • WebSocket安全连接自签名证书

    目标是一个与用户电脑上安装的 C 应用程序交换信息的 Web 应用程序 客户端应用程序是 websocket 服务器 浏览器是 websocket 客户端 最后 用户浏览器中的 websocket 客户端通过 Angular 持久创建 并且
  • 如何从 ODBC 连接获取可用表的列表?

    在 Excel 中 我可以转到 数据 gt 导入外部数据 gt 导入数据 然后选择要使用的数据源 然后在提供登录信息后 它会给我一个表格列表 我想知道如何使用 C 以编程方式获取该列表 您正在查询什么类型的数据源 SQL 服务器 使用权 看

随机推荐

  • Java 中的 + 运算符对于数字和字符串的行为有何不同?

    Java没有运算符重载的概念 运算符的行为类似于数字的加法运算符和字符串的连接运算符 这类似于运算符重载行为 那么 Java有运算符重载吗 它基本上是运算符重载 只是内置于语言中 Java 没有运算符重载的概念 是正确的 因为开发商不能重载
  • 时间戳末尾带有 .0

    我正在尝试在 AnnotatedTimeLine Google Chart 及其要求中放入一些时间戳 采用日期时间格式 当我重新格式化 为时间戳格式 从班级收到的字符串时 它会给出以下内容 2013 06 28 10 08 35 0 我想要
  • 通过 sys.modules 使虚拟包可用

    假设我有一个包 mylibrary 我想让 mylibrary config 可供导入 无论是作为动态创建的模块 还是从完全不同的位置导入的模块 然后基本上 安装 在 mylibrary 命名空间内 即 我这样做 import sys ty
  • 给定一个边界框和一条线(两个点),确定该线是否与该框相交

    给定一个边界框 其定义如下bounds min x y z bounds max x y z 以及 3D 空间中的两个点 表示为Vector3对象 如何确定两点所形成的线是否与边界框相交 这里有一个在线 C 实现 线盒交点 http www
  • JavaScript:更改嵌入标签的 src 属性

    我有以下场景 我向用户展示了来自服务器的一些音频文件 用户单击其中一个 然后最终对选定的文件夹和文件执行 onFileSelected 该函数的作用是更改嵌入对象的源 因此 在某种程度上 它是在接受所选文件并保存用户的选择之前对其进行的预览
  • 如何在 VSCode 中创建自定义命令?

    在 Emacs 中 我可以用 Lisp 语言创建函数并将它们放在 emacs文件 这些函数将成为可以从编辑器调用或绑定到按键的命令 就像任何其他内置命令一样 有没有办法在 VSCode 中做到这一点 注意 自定义命令需要能够调用其他命令 简
  • Java Math 类的本机代码

    我想知道是否有任何方法可以访问 Math 类的本机代码 更具体地说 我需要查看 sin 方法的代码 这取决于实现 如文档中所述java lang Math 与类的一些数字方法不同StrictMath 类的等效函数的所有实现Math未定义为返
  • std::bind 成员函数到对象实例的快捷方式,无需绑定参数

    我有一个带有多个参数的成员函数 我想将其绑定到特定的对象实例并将其传递给另一个函数 我可以用占位符来做到这一点 actualInstance is a MyClass auto callback bind MyClass myFunctio
  • 根据列将多个无标题列中的值替换为 0、1、2

    根据评论编辑 背景 这是当前数据框的样子 行标签是原始 Excel 文件中的信息文本 但我希望这个小的数据复制足以解决问题 实际文件大约有 100 列和 200 行 列标题和行 0 值按照如下所示的模式重复 除了Sales or Valid
  • 如何最好地将方法传递到同一类的方法中

    我有一个 C 类 它是一个大而复杂的方法compute我想用 计算内核 来提供 这是同一类的方法 我想我会做一些类似的事情 class test int classVar 42 int compute add int a int b com
  • Wix:如果找到以前的版本,则显示自定义对话框

    我想自定义我的安装程序 以便在已安装以前的版本时显示自定义对话框 在欢迎对话框之后 用户应该看到一个自定义对话框OldVersionDlg包含已找到先前版本并将自动卸载的信息 但由于某种原因设置的属性UpgradeVersion元素总是nu
  • 集合内的流星显示数组

    我想创建一个带有标签的帖子模型 并且能够显示每个帖子的所有标签 你知道最好的方法吗 我试过这个
  • 附加新卷时 Kubernetes Pod 处于挂起状态 (EKS)

    让我描述一下我的场景 TL DR 当我在 Kubernetes 上创建带有 1 个附加卷的部署时 一切都运行良好 当我创建相同的部署 但附加了第二个卷 总共 2 个卷 时 Pod 陷入 待处理 状态并出现错误 pod has unbound
  • Java:按位 OR 和 AND 比等效的逻辑运算符更快吗?

    切干 虽然我从来没有足够的逻辑运算使它成为性能瓶颈 我想知道 使用按位与 和按位或 而不是同名逻辑运算符会更好吗 和 如果可能的话 也许这个问题可以这样开头 我不知道有一个库可以将 Java 转换为汇编来查看操作数 位运算符避免分支指令 即
  • 如何绘制多点贝塞尔曲线?

    我有几点 我尝试使用下面的代码绘制贝塞尔曲线 PathFigure pf new PathFigure points From ps false ps list of Bezier segments PathFigureCollection
  • 如何在 CMake 中的不同目录中使用文件 glob

    file GLOB and file GLOB RECURSE 似乎仅适用于当前源目录 有什么办法可以全局不同的目录吗 file GLOB 一开始可能有点令人困惑 几个月前我也遇到过类似的问题 您必须直接在中指定您的路径
  • UIImagePickerController 显示的 VIDEO_TOO_LONG_TITLE 警报

    I use a UIImagePickerController拍电影 电影的长度受到设置的限制videoMaximumDuration控制器的属性 当您尝试拍摄较长的电影时 会按预期显示一条警报 However 意外的额外警报有权VIDEO
  • 插件更新后詹金斯严重错误

    我尝试更新几个詹金斯插件 不记得是哪个 但挂了 大约 15 分钟后 我决定重新启动 jenkins 服务器 这是我在詹金斯用户界面上得到的 org jvnet hudson reactor ReactorException java lan
  • C 中具有严格别名和严格对齐的面向对象模式的最佳实践

    我已经编写嵌入式 C 代码很多年了 新一代的编译器和优化器在警告有问题代码的能力方面无疑已经进步了很多 然而 至少有一个 根据我的经验 非常常见 用例继续引起悲伤 其中多个结构之间共享公共基本类型 考虑这个人为的例子 include
  • 获取html页面上的所有链接?

    我正在做一个小爱好项目 我已经编写了获取 url 下载标头并返回 mime 类型 内容类型的代码 然而 在此之前的步骤是我坚持的步骤 我需要基于标签内部和引号中检索页面上所有网址的内容 即 会找到网站图标链接 net 库中有什么有用的东西吗