Selenium driver.page_source() 仅提取部分 HTML DOM

2024-05-22

我有一个网页，当我右键单击它然后查看页面源时，我得到：SECTION-A

但是当我点击它然后检查时，我得到了更长的输出，我尝试使用 JS 获取页面源，但同样的问题，我得到了输出SECTION-A... 我怎样才能解决这个问题？

注意：我正在寻找通用解决方案，而不仅仅是针对这个特定网站。

我尝试过的：

time.sleep(3)
html1 = driver.execute_script("return document.documentElement.outerHTML")
html2 = driver.execute_script("return document.getElementsByTagName('html')[0].innerHTML")
html3 = driver.page_source()

我使用的是 chrome，这个问题有任何标志或解决方案吗？

SECTION-A:

<head><script language="javascript" type="text/javascript">
var framePara = new Array(
0,
"main.htm",
1,
0,0 );
</script>
<script language="javascript" type="text/javascript">
var indexPara = new Array(
"192.168.0.1",
1742822853,
"tplinklogin.net",
0,0 );
</script>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">

<title>TL-WR845N</title>
<meta http-equiv="Pragma" content="no-cache">
<meta http-equiv="Expires" content="wed, 26 Feb 1997 08:21:57 GMT">
<link href="../dynaform/css_main.css" rel="stylesheet" type="text/css">
<script language="javascript" src="../dynaform/common.js" type="text/javascript"></script>
<script language="javascript" type="text/javascript"><!--
//--></script>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<script language="javascript" src="../localiztion/char_set.js" type="text/javascript">
</script><script type="text/javascript">
var startUrl = "";
var startHelpUrl = "";
if(framePara[0] == 1)
{
    startUrl = "../userRpm/WzdStartRpm.htm";
    startHelpUrl = "../help/WzdStartHelpRpm.htm";
}
else
{
    startUrl = "../userRpm/StatusRpm.htm";
    /*changed by ZQQ, 2015.7.25, corresponding to function StatusRpmHtm*/
    if (framePara[2] == 0x08 || framePara[2] == 0x07 || framePara[2] == 0x06 || framePara[2] == 0x03)
    {
        startHelpUrl = "../help/StatusHelpRpm_AP.htm";
    }
    else if (framePara[2] == 0x04)
    {
        startHelpUrl = "../help/StatusHelpRpm_APC.htm";
    }
    else
    {
        startHelpUrl = "../help/StatusHelpRpm.htm";
    }
}
document.write("<FRAMESET rows=90,*>");
document.write("<FRAME name=topFrame marginWidth=0 marginHeight=0 src=\"../frames/top.htm\" noResize scrolling=no frameSpacing=0 frameBorder=0 id=\"topFrame\">");
document.write("<FRAMESET cols=182,55%,*>");
document.write("<FRAME name=bottomLeftFrame marginWidth=0 marginHeight=0 src=\"../userRpm/MenuRpm.htm\" noResize frameBorder=1 scrolling=auto style=\"overflow-x:hidden\" id=\"bottomLeftFrame\">");
document.write("<FRAME name=mainFrame marginWidth=0 marginHeight=0 src=" +startUrl+" frameBorder=1 id=\"mainFrame\">");
document.write("<FRAME name=helpFrame marginWidth=0 marginHeight=0 src="+startHelpUrl+" frameBorder=1 id=\"helpFrame\">");
document.write("</FRAMESET>");
</script></head>

        
    
<frameset rows="90,*"><frame name="topFrame" marginwidth="0" marginheight="0" src="../frames/top.htm" noresize="" scrolling="no" framespacing="0" frameborder="0" id="topFrame"><frameset cols="182,55%,*"><frame name="bottomLeftFrame" marginwidth="0" marginheight="0" src="../userRpm/MenuRpm.htm" noresize="" frameborder="1" scrolling="auto" style="overflow-x:hidden" id="bottomLeftFrame"><frame name="mainFrame" marginwidth="0" marginheight="0" src="../userRpm/StatusRpm.htm" frameborder="1" id="mainFrame"><frame name="helpFrame" marginwidth="0" marginheight="0" src="../help/StatusHelpRpm.htm" frameborder="1" id="helpFrame"></frameset>

<noframes>
    <body id="t_noFrame">Please upgrade to a version 4 or higher browser so that you can use this setup tool.</body>
</noframes>


</frameset>

WebElements 可能存在显着差异，如下所示查看源代码并如图所示督察工具。这两种方法都是两种不同的浏览器功能，使我们能够研究DOM Tree https://javascript.info/dom-nodes。然而它们之间的核心区别是：

查看源代码显示从 AUT 传送的 HTML (测试中的应用程序）到浏览器。
检查元素 is a 开发者工具 e.g. Chrome 开发工具 https://developers.google.com/web/tools/chrome-devtools看看的状态HTML DOM https://www.w3schools.com/js/js_htmldom.asp在浏览器应用其纠错之后以及在任何 Javascript 操作 DOM 之后。简而言之，使用查看源代码你会观察到JavaScript但不是HTML。 HTML 错误可能会在检查元素 tool.

因此，您会看到使用更大的输出Inspect.

您可以在中找到相关的详细讨论通过查看源代码获取显示的 Web 元素 https://stackoverflow.com/a/71699106/7429447

Solution

页面来源 https://www.selenium.dev/selenium/docs/api/py/webdriver_remote/selenium.webdriver.remote.webdriver.html#selenium.webdriver.remote.webdriver.WebDriver.page_source是最有效和经过验证的方法之一Selenium提取页面源。然而，有一个问题。你需要诱导WebDriver等待 https://stackoverflow.com/a/59130336/7429447为了元素可见性() https://stackoverflow.com/a/50474905/7429447 of a static网页内的元素。举个例子，要提取页面来源网页的https://example.com https://example.com你可以诱导WebDriver等待 for <h1>带有innerText的标签为Example Domain to be visible如下：

Using XPATH:

driver.get("https://example.com")     
WebDriverWait(driver, 20).until(EC.visibility_of_element_located((By.XPATH, "//h1[text()='Example Domain']")))
print(driver.page_source())

Note：您必须添加以下导入：

from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Selenium driver.page_source() 仅提取部分 HTML DOM 的相关文章

为什么 document.getelementbyId 在 Firefox 中不起作用？

我不明白为什么 document getElementById 在 Firefox 中不起作用 document getElementById main style width 100 当我检查 Firebug 时它说类型错误 docu
当条件评估为 true 时获取元素（扩展 ElementArrayFinder）

我们有一个菜单表示为ul gt li列表简化 ul class dropdown menu li class ng scope a href class ng binding Menu Item 1 a li li li ul
使用本机 JavaScript 获取过渡中的 CSS 值

这个问题之前被问过但答案使用了 jQuery here https stackoverflow com q 8920934 3186555 因此我将调整问题以专门询问native解决方案 to 最小化依赖关系假设您有一个 div 然后
水平平滑滚动 100px

Heyjo problem 一周以来我一直在寻找 javascript 或 jQuery 代码以便在我的网站上实现滚动按钮我失败的那一刻是按钮应该多次工作的时候他的任务不是滚动到专用元素而是应该向左滚动例如 100px 此外滚动
为什么字体扩展仅适用于 PDF，而不适用于其他格式（HTML、XLS、DOC）？

通过 Jaspersoft Studio 我们使用以下设置将用于 Web 应用程序的内置 Windows Calibri 字体变体导出到字体扩展 JAR 中导出的jrfontextensions jar内的目录结构如下 jrfontext
从顶部开始在同一水平线上显示同一行中的两个 div

这是我的代码 floating box display inline block width 150px margin 10px border 3px solid 73AD21 after box border 3px solid red
每 2 行后使 html 表格的边框变厚

我创建了一个包含一些内容的表其中有 12 行和 2 列我想显示边框但每 4 行之后我想将水平边框设置为比正常情况更粗怎么做请在这里帮忙试试这个选择器 table tr nth of type 4n td border bott
如何在离线绘图中绘制垂直线？

如何使用 python 以离线方式绘制一条垂直线我想在 x 20 x 40 和 x 60 处添加线条所有线条都在同一个图中 def graph contracts self trace1 go Scatter x np array ra
如何只获取父类对象的属性

我有两节课 class Parent object def init self id name self id id self name name self parent vars id name make a copy def print
jQuery mobile 中的文本区域高度和宽度？

我修复了 jQuery mobile 中文本区域元素的高度并且在纵向中得到了完美的高度和宽度但在横向中宽度没有放大谁能帮我提前致谢 HTML
html 电子邮件内的背景图像 css - Gmail 不支持

我想向我的用户发送如下所示的带有背景图像 css 的 html 正文电子邮件 div style width 500px height 1000px background color black background image none
网站在 iPhone 屏幕右侧显示空白区域

我遇到问题http eiglaw com http eiglaw com iPhone 屏幕右侧显示约 25 像素宽的空白边框我在 stackoverflow 上研究了这个问题这些帖子是相关的但是当我尝试提供的各种解决方案时我无法
最佳 JSON-LD 实践：使用多个

Selenium driver.page_source() 仅提取部分 HTML DOM

Solution

html

python3x

selenium

webscraping

DOM

Selenium driver.page_source() 仅提取部分 HTML DOM 的相关文章

为什么 document.getelementbyId 在 Firefox 中不起作用？

当条件评估为 true 时获取元素（扩展 ElementArrayFinder）

使用本机 JavaScript 获取过渡中的 CSS 值

水平平滑滚动 100px

为什么字体扩展仅适用于 PDF，而不适用于其他格式（HTML、XLS、DOC）？

从顶部开始在同一水平线上显示同一行中的两个 div

每 2 行后使 html 表格的边框变厚

如何在离线绘图中绘制垂直线？

如何只获取父类对象的属性

jQuery mobile 中的文本区域高度和宽度？

html 电子邮件内的背景图像 css - Gmail 不支持

网站在 iPhone 屏幕右侧显示空白区域

最佳 JSON-LD 实践：使用多个