HtmlUnit 下载文件后无法检索页面

2023-12-25

我在 Java 中的 HtmlUnit 中遇到了这个奇怪的问题。我用它从网站下载一些数据，过程是这样的：

1 - 登录

2 - 对于每个元素（汽车）

----- 3 搜索汽车

----- 4 从链接下载 zip 文件

代码：

创建网络客户端：

webClient = new WebClient(BrowserVersion.FIREFOX_3_6);
webClient.setJavaScriptEnabled(true);
webClient.setThrowExceptionOnScriptError(false);
DefaultCredentialsProvider provider = new DefaultCredentialsProvider();
provider.addCredentials(USERNAME, PASSWORD);
webClient.setCredentialsProvider(provider);
webClient.setRefreshHandler(new ImmediateRefreshHandler());

  public void login() throws IOException
  {
    page = (HtmlPage) webClient.getPage(URL);
    HtmlForm form = page.getFormByName("formLogin");

    String user = USERNAME;
    String password = PASSWORD;

    // Enter login and password
    form.getInputByName("LoginSteps$UserName").setValueAttribute(user);
    form.getInputByName("LoginSteps$Password").setValueAttribute(password);

    // Click Login Button
    page = (HtmlPage) form.getInputByName("LoginSteps$LoginButton").click();

    webClient.waitForBackgroundJavaScript(3000);

    // Click on Campa area
    HtmlAnchor link = (HtmlAnchor) page.getElementById("ctl00_linkCampaNoiH");
    page = (HtmlPage) link.click();

    webClient.waitForBackgroundJavaScript(3000);
    System.out.println(page.asText());
  }

在网站中搜索汽车：

private void searchCar(String _regNumber) throws IOException
 {
// Open search window
page = page.getElementById("search_gridCampaNoi").click();

webClient.waitForBackgroundJavaScript(3000);

// Write plate number
HtmlInput element = (HtmlInput) page.getElementById("jqg1");
element.setValueAttribute(_regNumber);

webClient.waitForBackgroundJavaScript(3000);

// Click on search
HtmlAnchor anchor = (HtmlAnchor) page.getByXPath("//*[@id=\"fbox_gridCampaNoi_search\"]").get(0);
page = anchor.click();

webClient.waitForBackgroundJavaScript(3000);
System.out.println(page.asText());
}

下载pdf：

    try
    {
      InputStream is = _link.click().getWebResponse().getContentAsStream();
      File path = new File(new File(DOWNLOAD_PATH), _regNumber);
      if (!path.exists())
      {
        path.mkdir();
      }
      writeToFile(is, new File(path, _regNumber + "_pdfs.zip"));
    }
    catch (Exception e)
    {
      e.printStackTrace();
    }
  }

问题：

第一辆车工作正常，pdf已下载，但是当我搜索新车时，当我到达这一行时：

page = page.getElementById("search_gridCampaNoi").click();

我得到这个异常：

Exception in thread "main" java.lang.ClassCastException: com.gargoylesoftware.htmlunit.UnexpectedPage cannot be cast to com.gargoylesoftware.htmlunit.html.HtmlPage

经过调试，我意识到在我拨打这个电话的那一刻：

InputStream is = _link.click().getWebResponse().getContentAsStream();

page.getElementById("search_gridCampaNoi").click() 的返回类型从 HtmlPage 更改为 WebResponse，因此我不再收到新页面，而是再次收到已下载的文件。

显示这种情况的调试器的几个屏幕截图：

第一次调用，返回类型OK：

第二次调用，返回类型更改，我不再收到 Html 页面：

提前致谢！

以防万一有人遇到同样的问题，我找到了一个解决方法。更改行：

InputStream is = _link.click().getWebResponse().getContentAsStream();

InputStream is = _link.openLinkInNewWindow().getWebResponse().getContentAsStream();

似乎可以解决问题。我现在在进行多次迭代时遇到问题，有时有效，有时无效，但至少我现在有了一些东西。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

HtmlUnit

HtmlUnit 下载文件后无法检索页面的相关文章

如何使用 Apache POI API 将图像添加到 pptx 中添加的图像占位符？

我已经预定义了带有文本和图像占位符的 pptx 模板我如何从模板访问和修改这些占位符我可以使用 POI pptx API 直接将图像和文本添加到幻灯片中但如何将其添加到模板的占位符中请参阅链接以了解如何添加占位符来创建固定模板 ht
Eclipse 在源代码管理中保存操作

我们希望找到一种在签入之前执行代码标准的轻量级方法我们真的很喜欢使用 Eclipse 内置的想法保存操作 go to Preferences gt gt Java gt gt Editor gt gt Save Actions 其中有
在文本文件中写入多行（java）

下面的代码是运行命令cmd并使用命令行的输出生成一个文本文件下面的代码在 Eclipse 的输出窗口中显示了正确的信息但在文本文件中只打印了最后一行谁能帮我这个 import java io public class TextFile
使用 JPA Criteria API 进行分页的总行数

我正在系统中为实体实现高级搜索功能以便用户可以使用该实体的属性上的多个条件 eq ne gt lt 等来搜索该实体我正在使用 JPA 的 Criteria API 动态生成 Criteria 查询然后使用setFirstResu
Java：迭代 Collection 的最佳方法（此处为 ArrayList）

今天当我看到一段我已经使用了数百次的代码时我很高兴地开始编码迭代集合此处为 ArrayList 出于某种原因我实际上查看了 Eclipse 的自动完成选项这让我想知道在什么情况下以下循环比其他循环更好使用经典的数组索引循环
Android在排序列表时忽略大小写

我有一个名为路径的列表我目前正在使用以下代码对字符串进行排序 java util Collections sort path 这工作正常它对我的列表进行排序但是它以不同的方式处理第一个字母的情况即它用大写字母对列表进行排序然后用
如何使用 Java 处理 Selenium WebDriver 中的新窗口？

这是我的代码 driver findElement By id ImageButton5 click Thread sleep 3000 String winHandleBefore driver getWindowHandle drive
Java AES 128 加密方式与 openssl 不同

我们遇到了一种奇怪的情况即我们在 Java 中使用的加密方法会向 openssl 生成不同的输出尽管它们在配置上看起来相同使用相同的键和 IV 文本敏捷的棕色狐狸跳过了懒狗加密为 Base64 字符串 openssl A8cMRI
JAVA - Xuggler - 组合 MP3 音频文件和 MP4 电影时播放视频

使用 JAVA 和 Xuggler 以下代码组合 MP3 音频文件和 MP4 电影文件并输出组合的 mp4 文件我希望在合并音频和视频文件时应自动播放输出视频文件 String inputVideoFilePath in mp4 Stri
JavaFX 中具有自定义内容的 ListView

How i can make custom ListView with JavaFx for my app I need HBox with image and 2 Labels for each line listView 您可以通过查看
当从服务类中调用时，Spring @Transactional 不适用于带注释的方法

在下面的代码中当方法内部是从内部调用的方法外部应该在交易范围内但事实并非如此但当方法内部直接从调用我的控制器class 它受到事务的约束有什么解释吗这是控制器类 Controller public class MyContr
在 Netbeans 8 上配置 JBoss EAP 的问题

我已经下载了 JBoss EAP 7 并正在 Netbeans 8 上配置它我已经到达向导实例属性其中要求从选择框中选择域当我打开选择框时它是空的没有什么可以选择的因此完成按钮也处于非活动状态这使得无法完成配置我通过
如何使用 Maven 打包并运行具有依赖项的简单命令行应用程序？

我对 java 和 Maven 都是全新的所以这可能非常简单如果我遵循maven2hello world此处的说明 http maven apache org guides getting started maven in Five m
使用 SQLITE 按最近的纬度和经度坐标排序

我必须获得一个 SQLite SQL 语句以便在给定初始位置的情况下按最近的纬度和经度坐标进行排序这是我在 sqlite 数据库中的表的例句 SELECT id name lat lng FROM items EXAMPLE RESUL
编辑文件名在 JComboBox 中的显示方式，同时保持对文件的访问

我对 Java 很陌生对堆栈溢出也很陌生我正在尝试利用 JMF API 创建一个用 Java 编码的简单媒体播放器到目前为止我已经能够设置一个简单的队列播放列表来使用JComboBox called playListHolder
IntelliJ - 调试模式 - 在程序内存中搜索文本

我正在与无证的第三方库合作我知道有一定的String存储在库深处的某个字段中的某处我可以预测的动态值但我想从库的 API 中获取它有没有一种方法可以通过以下方式进行搜索类似于全文搜索 full程序内存处于调试模式并在某个断点处停止
欧洲中部时间 14 日 3 月 30 日星期五 00:00:00 至日/月/年

我尝试解析格式日期Fri Mar 30 00 00 00 CET 14至日月年这是我的代码 SimpleDateFormat formatter new SimpleDateFormat dd MM yyyy System out
Jersey 客户端请求中未设置 Content-Length-Header

我正在使用 Jersey Client 访问网络服务如下所示 response r accept MediaType TEXT PLAIN TYPE header content length 0 post String class 其中
Struts 2 + Sitemesh 3 集成 - FreemarkerDecoratorServlet 中的 NPE

我将 Struts 2 版本 2 3 14 3 与 Sitemesh 3 版本 3 0 alpha 2 一起使用并且在某些情况下遇到 NullPointerException 首先这是我的 web xml 中的 struts2 site
为什么这个作业不起作用？

我有课Results which extends ArrayList

随机推荐

Android 编程断言

你能在android编程中使用断言吗如果是这样你如何在 Eclipse 中启用它因为问题是是否可能是的这是可能的但我同意 CommonsWare 认为应该避免断言无论如何看到我可以在 Android 设备上使用断言吗 http
Spark 1.6 在 EMR 上写入 S3，因为 Parquet 挂起并失败

我正在创建一个 uber jar Spark 应用程序将其提交到 EMR 4 3 集群我正在配置 4 个 r3 xlarge 实例其中一个作为主实例另外三个作为核心我从控制台预安装了 hadoop 2 7 1 ganglia 3
递归构造函数调用错误找不到解决方案

我在四个公共金枪鱼部分部分可能是一个类或其他东西处收到递归构造溢出调用错误它适用于教程但不适合我似乎看不到在哪里 public class tuna private int hour private int minute pri
如何检查变量是否是数组？

我对变量名有一个循环我需要检查变量的内容是否是数组 for varname in AA BB CC do local val if varname is array then how can I perform this test ech
如何在 Chrome DevTools 网络面板中按文本和属性进行过滤？

我想通过 URL 中的方法属性和文本过滤 Chrome DevTool 的网络面板例如如果我在 URL 中搜索文本 chromequestion 并且仅搜索 HTTP GET 请求忽略 PUT POST DELETE 等 I am a
JOOQ 查询的时间戳精度

我有一个 PSQL 原始查询我想将其转换为 JOOQ 查询 SELECT DISTINCT date trunc day ref date AS refdate FROM income WHERE probos id probosId 我
在 python lxml 库中使用西里尔字母的正确方法是什么

我尝试生成其中包含西里尔字母符号的 xml 文件但结果却出人意料避免这种结果的最简单方法是什么例子 from lxml import etree root etree Element print etree tostring root
监听元素的创建，并在元素出现在 Chrome 扩展程序的页面上时触发事件

是否可以让 Chrome 扩展监听尚未创建的元素的出现假设用户单击按钮并且单击事件创建一个元素 div My Div div 并将其添加到页面 DOM 是否可以设置一个侦听器在该元素出现时自动触发事件或者我是否必须每隔 X 毫秒轮询页
智能字段注释 - valuehelp 下拉菜单

我有一个值帮助字段并且只想在下拉列表中查看说明而不是代码选择后想要将代码存储在另一个处于隐藏模式的字段中为此我定义了以下注释
还有比 PHPDoc 更好的吗？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有没有人使用其他任何东西来记录他们的PHP代码比PHPDoc 是否有任何工具可以读取相同的文档语法但提
在 PowerShell 中启用本地用户权限分配

我之前问过类似的问题以便在某个域用户的 PowerShell 中获得本地用户权限现在我想启用该权限我希望启用一些权限但在本示例中我将使用登录作为批处理作业默认情况下 Windows Server 2008 中没有 Ntright
Knockout 中 Observable 的设置值未更新

每天都有大量的问题链接回为什么我不能设置可观察值的值而不是有这么多不同的答案说同样的事情我想创建一个问题供每个人参考 Knockout Observable Observable Array 的设置值不会更新设置我的可观察 obser
使用 OpenXML 将背景图像添加到 Excel

我正在使用 Open XML 创建 Excel 我想向 Excel 添加背景图像不要告诉我将图像添加到 Excel 并与 OpenXML Productivity Tool 进行比较请让我知道执行此操作的提取方法我已经深入研究使用 O
如何在Flask Sqlalchemy中分离Master Slave（DB读/写）

我正在尝试通过 Flask Sqlalchemy 分离读取和写入数据库操作我正在使用绑定来连接到 mysql 数据库我想在主机中执行写入操作并从从机中读取操作似乎没有内置的方法来处理这个问题我是Python新手很惊讶像这样急需的功
以低优先级启动进程（使用 Runtime.exec / ProcessBuilder.start）

我需要在低优先级下启动一个 CPU 密集型系统进程这样它就不会减慢我的服务器速度我怎样才能在 Linux 上做到这一点这与这个问题类似使用 Runtime exec ProcessBuilder start 以低优先级启动 Java
Java随机类不是真正随机的？

我正在尝试模拟我发现的数学难题http blog xkcd com 2010 02 09 math puzzle http blog xkcd com 2010 02 09 math puzzle 然而 java random 类返回奇怪的
退出系统调用的正确常量是什么？

我正在尝试学习 x86 64 汇编并使用 GCC 作为我的汇编器我使用的确切命令是 gcc nostdlib tapydn S D ASSEMBLY 我主要使用 gcc 作为其预处理器这是tapydn S global start i
在：数字之前右对齐 CSS？

我想要对段落进行编号而不需要使用有序列表我试图通过在 CSS 中使用 content counter paragraph 来实现此目的以便我创建的每个段落块都会在其左侧生成一个数字 pass counter reset paragra
按日期差异对结果排序

我们有一个按输入日期的 1 个月的日期范围查询的 solr 结果如果我输入 2012 12 01 我会得到从 2012 11 01 到 2013 01 01 的结果集这工作正常但我们希望在与输入日期的日期差异之后对结果进行排序例如
HtmlUnit 下载文件后无法检索页面

我在 Java 中的 HtmlUnit 中遇到了这个奇怪的问题我用它从网站下载一些数据过程是这样的 1 登录 2 对于每个元素汽车 3 搜索汽车 4 从链接下载 zip 文件代码创建网络客户端 webClient new WebC

HtmlUnit 下载文件后无法检索页面

HtmlUnit 下载文件后无法检索页面 的相关文章

随机推荐

热门标签

HtmlUnit 下载文件后无法检索页面的相关文章