htmlagilitypack 和动态内容问题

2024-01-09

我想创建一个网络 __scraper__ 应用程序，并且我想使用网络浏览器控件、htmlagilitypack 和 xpath 来完成它。

现在我设法创建 xpath 生成器（我使用网络浏览器用于此目的），它工作正常，但有时我无法动态获取（通过 javascript 或 ajax）生成的内容。我还发现，当网页浏览器控件（实际上是 IE 浏览器）生成一些额外的标签，如“tbody”，同时又生成 htmlagilitypack `htmlWeb.Load(webBrowser.DocumentStream);` 没有看到它。

另一个注释。我发现以下代码实际上获取了当前的网页源代码，但我无法提供 htmlagilitypack `(mshtml.IHTMLDocument3)webBrowser.Document.DomDocument;`

你能帮我吗？

我只是花了几个小时试图让 HtmlAgilityPack 从网页渲染一些 ajax 动态内容，我从一篇无用的文章转到另一篇文章，直到找到这篇文章。

答案隐藏在最初的帖子下的评论中，我想我应该把它弄清楚。

这是我最初使用的方法，但没有成功：

private void LoadTraditionalWay(String url)
{
    WebRequest myWebRequest = WebRequest.Create(url);
    WebResponse myWebResponse = myWebRequest.GetResponse();
    Stream ReceiveStream = myWebResponse.GetResponseStream();
    Encoding encode = System.Text.Encoding.GetEncoding("utf-8");
    TextReader reader = new StreamReader(ReceiveStream, encode);
    HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
    doc.Load(reader);
    reader.Close();
}

WebRequest 将不会呈现或执行呈现缺失内容的 ajax 查询。

这是有效的解决方案：

private void LoadHtmlWithBrowser(String url)
{
    webBrowser1.ScriptErrorsSuppressed = true;
    webBrowser1.Navigate(url);

    waitTillLoad(this.webBrowser1);

    HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
    var documentAsIHtmlDocument3 = (mshtml.IHTMLDocument3)webBrowser1.Document.DomDocument; 
    StringReader sr = new StringReader(documentAsIHtmlDocument3.documentElement.outerHTML); 
    doc.Load(sr);
}

private void waitTillLoad(WebBrowser webBrControl)
{
    WebBrowserReadyState loadStatus;
    int waittime = 100000;
    int counter = 0;
    while (true)
    {
        loadStatus = webBrControl.ReadyState;
        Application.DoEvents();
        if ((counter > waittime) || (loadStatus == WebBrowserReadyState.Uninitialized) || (loadStatus == WebBrowserReadyState.Loading) || (loadStatus == WebBrowserReadyState.Interactive))
        {
            break;
        }
        counter++;
    }

    counter = 0;
    while (true)
    {
        loadStatus = webBrControl.ReadyState;
        Application.DoEvents();
        if (loadStatus == WebBrowserReadyState.Complete && webBrControl.IsBusy != true)
        {
            break;
        }
        counter++;
    }
}

这个想法是使用能够呈现 ajax 内容的 WebBrowser 进行加载，然后等到页面完全呈现，然后再使用 Microsoft.mshtml 库将 HTML 重新解析到敏捷包中。

这是我访问动态数据的唯一方法。

希望它可以帮助某人

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

htmlagilitypack 和动态内容问题的相关文章

操作/Lambda 表达式内存管理问题

我将一个操作存储在局部变量中然后在该局部变量超出范围后使用使用前是否有被清理的危险这是一个例子 public List GetMaps Action
StreamReader，C#，peek

我有一个 StreamReader 它偶尔会检查它是否有更多内容可以从简单的文本文件中读取它使用 peek 属性问题是当我使用 peek 时位置发生了变化尽管不应该发生 FileStream m fsReader new File
C++：初始化静态字符串成员

我在 C 中初始化静态字符串成员时遇到一些问题我有几个类每个类都包含几个表示 id 的静态字符串成员当我通过调用静态函数初始化变量时一切都很好但是当我想为一个变量分配另一个变量的值时它仍然保留空字符串这段代码有什么问题 st
C for 循环索引：新 CPU 中的前向索引更快吗？

在我订阅的邮件列表上两位知识渊博的 IMO 程序员正在讨论一些优化的代码并说了以下内容在 5 8 年前发布的 CPU 上向后迭代 for 循环稍微快一些 e g for int i x 1 i gt 0 i 因为比较i归零比将其与其
捕获另一个进程未处理的异常

我想知道我是否可以捕获我开始使用 Process Start 的另一个进程抛出的未处理的异常我知道我可以用这个捕获标准错误link http social msdn microsoft com Forums en US csharpgen
如何强制用户仅使用“new”创建从我派生的类的对象？

为了实现引用计数我们使用IUnknown http msdn microsoft com en us library ms680509 VS 85 aspx类接口和智能指针模板类该接口具有所有引用计数方法的实现包括Release vo
使用 INotifyPropertyChanged

有人可以解释一下为什么在 wpf 中使用绑定时需要使用 INotifyPropertyChanged 的实现吗我可以在不实现此接口的情况下绑定属性吗例如我有代码 public class StudentData INotifyProp
Visual Studio Code 调试默认 ASP.NET Core MVC WebApp：不起作用

我正在使用 Manjaro linux 并尝试调试默认的 ASP NET Core MVC 项目但调试停止没有任何错误我创建了该项目 dotnet new mvc in a Meow文件夹没什么特别的然后添加了新的配置 NET C
使用 QGraphicsScene 实现流畅的动画

我希望我的问题并不总是同样的问题我有一个 QGraphicsScene 它的项目是一些 QGraphicsPixmap 我用一个计时器来移动它们每秒 SetX 10 我设置 10是因为窗口大100 使用这个解决方案我的动画不流畅我想我
带有自定义鉴别器的 EntityFramework Code First 继承

我正在尝试在 EntityFramework Code First 中映射以下继承 public class Member public string ProjectName get set public string AssemblyNa
数组与映射的性能

我必须循环一个大数组中的元素子集其中每个元素都指向另一个元素问题来自于检测大图中的连接组件我的算法如下 1 考虑第一个元素 2 将下一个元素视为前一个元素所指向的元素 3 循环直到没有发现新元素 4 考虑1 3中尚未考虑的下一个元素
TreeView：仅在子节点中存在复选框

我需要一个树视图控件根节点没有复选框只有图像所有子节点都有一个复选框图像 C net 2 0 winforms 不是 wpf WinForms树视图默认不支持混合复选框非复选框节点您可以在树视图上全局启用复选框并使用以下命令在
char* argv[] 在 c/c++ 中如何工作？ [复制]

这个问题在这里已经有答案了我知道它用于使用命令行中的参数但我没有得到声明字符 argv 它是否意味着指向 char 数组的指针如果是的话为什么没有大小如果不是动态数组就不需要有大小吗我做了一些研究发现有人说它会衰减为 cha
为什么我不能对普通变量进行多态？

我是一名Java程序员最近开始学习C 我对某事感到困惑据我了解在 C 中要实现多态行为您必须使用指针或引用例如考虑一个类Shape与实施的方法getArea 它有几个子类每个子类都以不同的方式重写 getArea 然后考虑以
OpenGL 计算着色器调用

我有一个与新计算着色器相关的问题我目前正在研究粒子系统我将所有粒子存储在着色器存储缓冲区中以便在计算着色器中访问它们然后我派遣一个一维工作组 define WORK GROUP SIZE 128 shaderManager gt u
清理堆分配对象的良好实践或约定？

我正在学习C 我有 C C ObjC 背景相当高级的语言在 C 或 ObjC 上作为函数或方法的结果返回堆分配的对象是很简单的因为对象的清理是受管理的按照惯例会在适当的时候销毁但我不知道在 C 中应该如何处理这个问题例如 s
扔掉挥发物安全吗？

大多数时候我都是这样做的 class a public a i 100 OK delete int j Compiler happy But is it safe The following code will lead compilat
从 STL 列表中删除项目

我想创建一个函数如果符合特定条件则将项目从一个 STL 列表移动到另一个列表这段代码不是这样做的方法迭代器很可能会被擦除函数失效并导致问题 for std list
如何从尖点库矩阵格式获取原始指针

我需要从尖点库矩阵格式获取原始指针例如 cusp coo matrix
如何在用户空间程序中使用内核 libcrc32c （或相同的函数）？

我想在我自己的用户空间程序中进行一些 CRC 检查我发现内核加密库已经在系统中并且支持 SSE4 2 我尝试直接 include

随机推荐

ORM 与 CodeContracts 结合使用的实体 - 确保不变性

我目前正在将 CodeContracts 添加到我现有的代码库中事实证明困难的一件事是使用由 NHibernate 水合的实体假设这个简单的类 public class Post private Blog blog Obsolete R
是否可以使用从 Docker 内部构建的内核模块？

我有一个需要为特定硬件构建的自定义内核模块我想自动设置我的系统因此我一直在容器化多个应用程序我需要的东西之一就是这个内核模块假设 Docker 容器中的内核头文件和主机上的内核版本完全相同是否可以将整个构建过程容器化并允许主机使用
WCF：更改 ClientCredentials 会产生“此工厂启用手动寻址，因此发送的所有消息都必须预先寻址”。

任何人都可以帮忙我正在尝试通过通道工厂调用休息服务但发送我的凭据休息服务使用 Windows 身份验证但通过以下代码我得到该工厂启用了手动寻址因此发送的所有消息都必须预先寻址使用 GetMessage 时出错我知道我的服务
为什么 Maven + Spring Boot 会创建巨大的 jar 文件？

我有以下 Maven 项目结构 parent project main application domain models and repository module 1 module 2 module 3 以及以下简化的 POMS 父项目
在JS中获取当前IP（无第三方服务）[重复]

这个问题在这里已经有答案了是否可以使用 WebRTC JS API 和 ICE 协议公共 IP 为 STUN 获取客户端 IP 是的您可以使用 WebRTC JS API 和 ICE 协议公共 IP 为 STUN 更多信息here
将响应式 div 高度设置为等于其同级 div 高度

我有两个 div 其宽度由百分比控制我希望右侧 div 与左侧 div 一样高左侧 div 根据其包含的图像的宽度和浏览器窗口的宽度进行扩展和收缩有没有一种方法可以在不使用 JavaScript 的情况下完成此任务 http jsfi
Pandas - 2 个数据帧，将 df1 的索引列添加到第二列上的 df2

我有 2 个数据框 df1 sample has more columns Region Placement ID Units 0 Western Europe 1 10872E 13 367628 76 1 Western Europe
将打字稿输出捆绑在单个文件中

我在源文件夹中有一堆遵循 ecmascript 2015 模块模式的打字稿文件我有 tsconfig 设置将转换后的文件输出到 lib 文件夹效果很好但是有什么方法可以将它们捆绑在一起形成一个可以在浏览器中使用的文件吗我希望我的模块
Pinterest 无法获取图像

尝试实现固定它按钮但它会为每个图像返回以下问题我们在整个网站上使用 SSL 我想知道这是否相关任何想法 route pattern resource name method error api error code 1 messa
DropDownList OnSelectedIndexChange 到第 0 个索引，不带 ViewState

我确实关注了这篇文章真正理解 ViewState http weblogs asp net infinitiesloop archive 2006 08 03 truly understanding viewstate aspx 顺便说一句
RPM 的名称-版本-发布的规则是什么？

想象一个名为abc 123 1 x86 rpm 我发现其中有一个错误但我不知道如何命名new包裹 Maybe abc 123 2 x86 rpm 但是如果有一个怎么办xyz rpm依赖于取决于abc 123 1 Maybe abc 123
ffmpeg转码为直播流

我需要在 html 视频标签中显示 ip 摄像机流我已经弄清楚如何从 rtsp 流转码到文件如下所示 ffmpeg i rtsp user password ip s 640x480 tmp output mp4 现在我需要能够在这样的
基于令牌的数据库身份验证失败，并显示“用户‘NT AUTHORITY\ANONYMOUS LOGON’登录失败”。

我在基于令牌的数据库身份验证工作时遇到问题使用 Active Directory 密码连接可以正常工作但是当使用令牌连接时我收到以下错误用户 NT AUTHORITY ANONYMOUS LOGON 登录失败这个问题已经讨论过了在
Admob 中介 - 发布商 ID 与中介 ID

我想知道 Admob 中介的正确范例是什么到目前为止我已经有了一个普通的 AdView 横幅这就是我认为它应该如何工作的 onFailedToReceiveAd 捕获此事件这意味着 admob 无法提供广告使用中介 ID 创建新的
使用 MinGW 的 Eclipse CDT 不在控制台中输出

我有一台 Windows 7 64 位 PC 并且正在尝试安装免费的 C IDE 因此我选择使用 CDT 安装 Eclipse Helios 对于 g make 和 gdb 我根据本教程安装了 msys 和 mingw http wiki
CoffeeScript 在更改和加载时动态选择表单字段

我有一个 Rails 应用程序我试图根据表单中选择的区域来选择设施列表到目前为止我已经实现了 group collection select 以及一些 CoffeeScript 来执行此操作它在创建新记录和选择区域时起作用行为是仅
py2neo 中的批处理

我已经开始使用 Node4j 并且正在探索一些批处理但不幸的是我在创建节点之间的关系时遇到了一些问题我的问题如下我有一个从文件中读取的网站和用户列表我可能在该文件中有重复的网站和用户所以我不想为这些重复的条目插入新节点但由于文
如何将一些文本信息封装在图像中并使用 MATLAB 提取它？

new img convert img text img text convert back new img 有人可以用 MATLAB 的内置图像来说明吗我相信你正在寻找隐写术 http en wikipedia org wiki Ste
更改 Yii2 视图中的布局文件

我正在使用 Yii2 做一个小项目假设我在视图中有相同的布局页眉页脚例如site 除了login php在此看来我想在这个文件中使用不同的页眉页脚或没有页眉页脚我可以做什么来仅从此视图文件中删除页眉页脚我所能做的就是在不
htmlagilitypack 和动态内容问题

我想创建一个网络 scraper 应用程序并且我想使用网络浏览器控件 htmlagilitypack 和 xpath 来完成它现在我设法创建 xpath 生成器我使用网络浏览器用于此目的它工作正常但有时我无法动态获取通过 jav

htmlagilitypack 和动态内容问题

htmlagilitypack 和动态内容问题 的相关文章

随机推荐

热门标签

htmlagilitypack 和动态内容问题的相关文章