Jsoup

使用 Jsoup 选择没有类的 HTML 元素

考虑一个像这样的 html 文档 div p p p p p class random class name p div 我们怎样才能选择所有p元素但不包括p元素与random class name class Elements ps b

Java html css Jsoup selector

Jsoup - 获取仅包含指定属性及其值的 HTML 标记

我想用jsoup从页面中提取具有以下内容的元素only一些特定的属性和值我已经经历过以下提到的方法但没有一个很好地解决了我的目的 Jsoup s getElementsByAttributesMatching 选择查询的这种格式 doc

Java webscraping Jsoup

Jsoup 检查字符串是否是有效的 HTML

我在使用 Jsoup 解析器时遇到困难如何判断给定的字符串是否是有效的 HTML 代码 String input Your vote was successfully added boolean isValid Jsoup isValid

Java Jsoup

Jsoup Java HTML 解析器：执行 Javascript 事件

我可以在 Jsoup 中填写表单执行事件和 Javascript 函数吗如果是的话我该怎么办或者我应该去找另一个解析器 JSoup 只是一个 HTML 解析器 tidyfier 不是浏览器模拟器要与 HTML 页面交互执行 jav

Java Jsoup htmlparsing domevents

Jsoup http 日志记录

有没有办法记录http请求和响应我们假设以下请求 Connection Response res Jsoup connect LOGIN URL HERE data user USER pass PASS method Connectio

Java html http logging Jsoup

让 Jsoup 支持通过 JavaScript 动态生成 html

现在我正在开发一个网络爬虫这个应该解析一些特定的站点并将输出输出到 xml 文件中到目前为止没有问题 Crawler 可以工作您可以通过 cfg 文件快速自定义它我使用 Jsoup 来解析 HTML 内容我刚刚添加了几个站点发

Java javascript html Jsoup HtmlUnit

使用用户名和密码登录 LinkedIn 失败

LinkedIn使用oauth登录其api 服务器中无法登录api 我尝试使用http请求登录linkedin并获取oauth verifier 但我得到了这样的回应很抱歉出现了问题你的申请请确保您启用cookie并重试或点击此

Java HttpClient linkedinapi Jsoup

如何使用 Jsoup 获取包含非 ASCII 字符（ą、ś ...）的 URL？

我正在使用 jsoup 解析一些波兰网站但我对 URL 中的等特殊字符有问题example com k t读起来像example com k 每个没有这个特殊字符的查询都可以完美运行我努力了Document doc Jsoup par

Java Jsoup

Jsoup - 隐藏的div类？

我正在尝试爬取 div 类但到目前为止我尝试过的一切都失败了我正在尝试抓取元素 a href div class s buttons button s buttons buttonAlt s buttons buttonSlashBac

html webscraping Jsoup

使用Java获取CSS文件中图像的URL？

我正在尝试使用 Java 获取远程 CSS 文件中图像所有 MIME 类型的 URL 我正在使用 jsoup 来获取 css 的 URL 经过无数个小时的观看CSS解析器 http cssparser sourceforge net 由

Java css regex Parsing Jsoup

如何使用 Jsoup 解析此 HTML

我正在尝试提取了解你的拖拉机和壳牌石油公司 1955 请记住这只是整个代码的一小段并且有多个 H2 H3 标签我想获取所有 H2 和 H3 标签的数据 HTML 如下 https i stack imgur com Pif3B

Java html Jsoup

无法使用 Jsoup HTML 解析器 Java 实现某些功能

我无法使用 Jsoup Java 库解析以下场景的一些文本 1 This is b My Text b some other b b text as well b b b non empty tag1 b other text 预期输出 s

Java html htmlparsing Jsoup

如何在java中使用正则表达式获取页面元数据（标题，描述，图像），例如facebook附加url

如何使用 java 中的正则表达式获取页面元数据标题描述图像例如 facebook 附加 url 下面的代码片段读取网页并构建一小段 HTML 用于显示 Open Graph 图像并在图像右侧显示标题如果缺少 OG 标签它会退

Jsoup

Java 页面爬行和解析之 Crawler4j 与 Jsoup

我想获取页面的内容并提取其中的特定部分据我所知此类任务至少有两种解决方案爬虫4j https github com yasserg crawler4j and Jsoup http jsoup org 它们都能够检索页面的内容并提取其

Java webcrawler htmlparsing Jsoup crawler4j

如何在 https 连接上检索 cookie？

我试图将 cookie 保存在使用 SSL 但始终返回 NULL 的 URL 中 private Map

Java cookies https Jsoup

尝试在空对象引用上调用虚拟方法“java.lang.String org.jsoup.nodes.Element.ownText()”

我正在使用下面的代码来获取版本名称 from 应用商店通过使用 jsoup 我正在获取详细信息但它引发了一些异常我的代码是 public class ForceUpdateAsync extends AsyncTask

Java Android Jsoup

如何为 Jsoup 添加代理支持？

我是 Java 初学者我的第一个任务是解析大约 10 000 个 URL 并从中提取一些信息为此我正在使用Jsoup并且运行良好但现在我想为其添加代理支持代理也有用户名和密码您可以轻松设置代理 System setProperty

Java Jsoup

重用 Jsoup 连接

我喜欢 Jsoup 来解析 html 但它们的连接有问题我需要向同一个网站但不同的查询参数发送请求比如 id XXX 请求如下 http website id XXX 我不想为每个 id 创建一个新连接而是为所有 id 请求保留一个连

Jsoup

jsoup 的奇怪编码行为

我用jsoup从不同页面的html源代码中提取一些信息大多数都是UTF 8编码的其中一个是用 ISO 8859 1 编码的这会导致一个奇怪的错误在我看来包含错误的页面是 http www gudi ch armbanduhr me

Java html characterencoding htmlparsing Jsoup

Jsoup遍历DOM树时节点哈希码冲突

我正在使用 java jsoup 构建 HTML DOM 树其中Node hashCode 用来但我发现在遍历DOM树时存在很多哈希码冲突使用以下代码 doc traverse new NodeVisitor Override pub

Java html DOM Hash Jsoup