java 抓取网页_Java抓取网页数据

2023-11-07

有时候由于种种原因,我们需要采集某个网站的数据,但由于不同网站对数据的显示方式略有不同!

本文就用Java给大家演示如何抓取网站的数据:(1)抓取原网页数据;(2)抓取网页JavaScript返回的数据。

一、抓取原网页。

这个例子我们准备从http://ip.chinaz.com上抓取ip查询的结果:

第一步:打开这个网页,然后输入IP:111.142.55.73,点击查询按钮,就可以看到网页显示的结果:

1345962826_4365.png

第二步:查看网页源码,我们看到源码中有这么一段:

1345962901_8785.png

从这里可以看出,查询的结果,是重新请求一个网页之后显示的。

再看看查询之后的网页地址:

1345963016_6213.png

也就是说,我们只要访问形如这样的网址,就可以得到ip查询的结果,接下来看代码:

public void captureHtml(String ip) th

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

java 抓取网页_Java抓取网页数据 的相关文章

  • 总结了9款Mac端超好用的免费开源软件,你还有更好的推荐吗?

    与Windows相比 Mac上的软件 不仅不稀缺 并且大多数都更加精致 还没有乱七八糟烦人的弹窗骚扰 所以 本期就为大家盘点盘点Mac上有超好用的免费开源神器 1 Tincta 官网 https codingfriends github i
  • glibc堆内存管理

    glibc堆内存管理 背景 应用出现SIGABRT crash 报错信息为 malloc invalid size unsorted 即是在应用调用malloc分配内存时出现异常导致的crash 管理结构 进程虚拟地址空间被划分为代码段 数
  • eclipse下JNI的初步实现

    eclipse下JNI的初步实现 JNI java native interface 为java应用程序提供调用本地方法的接口 The standard Java class library may not support the plat
  • build打包后怎么查看源码 vue_vue2源码解析一:打包与构建流程

    本系列文章 基于vue 2 6 11进行解析 不追究每行代码分析清楚 但求把握大体的重点 比如源码构建流程 如何实现数据双向绑定 如何解析模板 如何解析一个组件的data method computed等属性 如何实现在weex web等多
  • LeetCode-1326. Minimum Number of Taps to Open to Water a Garden

    There is a one dimensional garden on the x axis The garden starts at the point 0 and ends at the point n i e The length
  • 深圳大学软件工程MOOC章节测试答案

    第一章 章节测试 一 单选题 共 90 00 分 1 下列 不是软件工程方法学中的要素 A 方法 B 工具 C 程序 D 过程 满分 10 00 分 得分 10 00 分 你的答案 C 教师评语 暂无 2 软件工程方法学的目的是 使软件生产
  • RK3588s imx415相机适配及ISP调优系列(三)--- RKISP调试环境配置

    经过上篇的相机配置后 两个mipi相机已经可以正常出图了 其实对于rk系列如何配置mipi相机 网上已有不少相关资料均可参考借鉴 RK3588s imx415相机适配及ISP调优系列 一 RK3588s imx415相机适配及ISP调优系列
  • Fast DDS入门二、Fast DDS在Windows平台的编译安装

    Fast DDS入门五 在Windows平台创建一个简单的Fast DDS示例程序 1 Fast DDS动态库的编译安装 本节提供了在Windows环境中从源代码安装Fast DDS的说明 将安装以下软件包 foonathan memory
  • Storcli工具linux命令

    storcli命令使用 设置其他盘的JBOD模式 使用storcli64工具进行查看RAID状态 storcli64 c0 show 使用storcli64工具进行删除RAID storcli64 c0 vall del force 例如
  • 具有最大和的连续子数组(动态规划法)

    题目 给定一个整数数组 nums 找到一个具有最大和的连续子数组 子数组最少包含一个元素 返回其最大和 示例 1 输入 nums 2 1 3 4 1 2 1 5 4 输出 6 解释 连续子数组 4 1 2 1 的和最大 为 6 思路 动态规
  • apollo 轨迹预测介绍

    转自 http www iheima com article 178452 html 对于纵向轨迹的采样 我们需要考虑巡航 跟车或超车 停车这三种状态 作者 许珂诚 编辑 Natalie 大家好 我是来自百度智能驾驶事业群的许珂诚 今天很高
  • Android中使用log4j2

    Log4j2 的配置 使用 最近公司让调研log4j2在Android中的使用 在网上查了很多资料 在这做个总结 一起学习 参考了许多文章 文末都有链接 感谢大佬们的文章 Log4j2 简介 log4j2是log4j 1 x 的升级版 20
  • 多租户分库分表技术文档

    分库分表技术文档 2022 07 13 李某某 1需求 1 1多租户实现分库分表 1 2系统实现主从数据源 2系统功能 2 1多租户实现分库分表 2 1 1功能描述 根据租户的数量和租户的自定义编号实现对应的分库和分表 假设现有租户1001
  • C ++中的std :: nth_element()

    The standard library of C has a huge number of functions that are not so explored but can be very handy in case of speci
  • 彻底删除Vscode所有数据

    1 先卸载源程序文件 在安装更目录找到unins000 exe 点击进行卸载 2 删除Vscode插件 此路径是C Users Administrator 此文件名是当前PC的登录用户名 进入目录后找到 vscode 进行删除 3 删除个人
  • java: 抽象工厂模式 Abstract Factory(Kit/ToolKit)

    版权所有 2022 涂聚文有限公司 许可信息查看 描述 抽象工厂 Abstract Factory Kit ToolKit 历史版本 JDK 14 02 2022 09 12 创建者 geovindu 2022 09 12 添加 Lambd
  • springCloud 微服务架构设计图解

    搭建初始化项目地址 spring cloud project 简单的springClould快速启动 包括 nacos gateway Redis mybatis plus rocketMQ OpenFeign只是简单的搭建了一些基础模块
  • 路由器和交换机的工作原理总结

    路由器的工作原理 当数据包进入路由器时 路由器先查看数据包中的目标MAC地址 1 广播 解封装到3层 2 组播 每一个组播地址均存在自己的MAC地址 基于目标MAC就可以判断本地是否 需要解封装 若本地加入了该组将解包 否则直接丢弃 3 单

随机推荐

  • 《TCP/IP网络编程》阅读笔记--Socket类型及协议设置

    目录 1 协议的定义 2 Socket的创建 2 1 协议族 Protocol Family 2 2 Socket类型 Type 3 Linux下实现TCP Socket 3 1 服务器端 3 2 客户端 3 3 编译运行 4 Window
  • Docker 网络实现

    Docker 网络实现 Docker 的网络实现其实就是利用了 Linux 上的网络名字空间和虚拟网络设备 特别是 veth pair 建议先熟悉了解这两部分的基本概念再阅读本章 基本原理 首先 要实现网络通信 机器需要至少一个网络接口 物
  • 2023华为OD机试真题【连接器/贪心算法】

    题目描述 有一组区间 a0 b0 a1 b1 a b表示起点 终点 区间有可能重叠 相邻 重叠或相邻则可以合并为更大的区间 给定一组连接器 x1 x2 x3 x表示连接器的最大可连接长度 即x gt gap 可用于将分离的区间连接起来 但两
  • linux搭建环境命令,在Linux上搭建测试环境常用命令(转自-测试小柚子)

    一 搭建测试环境 二 查看应用日志 1 vi vi vim 原本是指修改文件 同时可以使用vi 日志文件名 打开日志文件 2 less less命令是查看日志最常用的命令 用法 less 日志文件名 分页显示文件的内容 经常使用这个命令是因
  • [开发中遇到的算法] 均分数组

    业务背景 最近我需要写并发rpc的负载均衡 某种意义上的吧 遇到很有意思的问题 需求如下 下游固定死最多一次请求100个 比如要请求101个时要拆两个请求并发rpc 并等待两个请求都返回后拼装成一个结果返回 拆成51个 50个发出请求比拆成
  • lgg8各个版本_如何评价LG G8?

    回复下吧 产品中规中矩的升级 奈何同期对手太强 宣发脑子被驴踢 前置TOF早有透露 自家lg innotek的产品 效果不错 能更好3d人脸自拍 人脸识别 以及AR 都9012了搞隔空操作还作为宣传主力真是脑子进了水 忘了三星S4的眼球操作
  • [人工智能-深度学习-24]:卷积神经网络CNN - CS231n解读 - 卷积神经网络基本层级

    作者主页 文火冰糖的硅基工坊 文火冰糖 王文兵 的博客 文火冰糖的硅基工坊 CSDN博客 本文网址 人工智能 深度学习 23 卷积神经网络CNN CS231n解读 卷积神经网络基本层级 文火冰糖 王文兵 的博客 CSDN博客 目录 第1章
  • 使用elment+moment写年时间段选择

    要求 选择年的时间段 不能选择当前年之后的年份 先看实现效果如 1 html结构代码
  • 矩阵的迹(Trace)

    译自维基百科 在线性代数中 方阵A n n 的迹定义为对角线元素的和 即 矩阵的迹表示的是特征值的和 它不随基的变化而变化 通常 这种特性可以用来定义线性算子的轨迹 注意 迹是对方阵而言的 举例 A是一个方阵 如下 则A的迹表示为 迹的特性
  • KEIL编译出现错误“source file is not valid utf-8”

    KEIL编译出现错误 source file is not valid utf 8 在外面复制了一段代码 c文件一直报错source file is not valid utf 8的错误 经查找原因就是 文件中出现中文符号导致的 特别是中文
  • 用Excel做相关性分析

    一 概念理解 相关关系 变量之间存在着的非严格的不确定的关系 对它们进行深层次的分析 观察它们的密切程度 相关性分析 对变量之间相关关系的分析 即相关性分析 其中比较常用的是线性相关分析 用来衡量它的指标是线性相关系数 又叫皮尔逊相关系数
  • new的三种用法

    new的三种用法 第一种 创建一个新对象 Test p new Test 10 这里的new的用法是创建一个新的Test型的对象 该用法一共有三个步骤 1 申请一个空间 2 在申请的空间当中构造一个对象 并将该对象放置到空间中 3 将空间的
  • Ubuntu下NFS服务器配置及应用

    NFS文件系统仅占用系统挂载点 NFS服务器设定好分享的目录 home shares 其他客服端就可以将这个目录挂载到自己系统上的挂载点上 home shares就像自己的一个分区 但不占用自己的磁盘空间 虽然NFS有自己的协议及端口号 但
  • 必测的支付漏洞(一)——使用fiddler篡改支付金额

    互联网产品中常会遇到支付功能 测试人员测试这部分功能时一定要重视 因为如果这部分出现了较严重的bug 将会给公司带来不小的经济损失 如果你测出了问题领导也一定会高兴的 因此测试优先级很高 但具有一定难度 刚接触测试的小白们可能不知道支付功能
  • 五分钟成为记忆王

    一 记忆的面纱 1 记忆的含义 1 就在我嘴边上 有多少次你这样说过 就在我嘴边上 又有过多少次在你需要什么时候 任凭你如何拼命地想 就是想不起来 当然 这问题不是你一个人才有 几乎所有的人都受到过记忆力差的困扰 这也是人类的一个最常见的不
  • stm32 IO口的八种输入输出模式

    记录一下stm32 IO口的八种输入输出模式的学习 首先 可以看见stm32的输入输出模式有以上8种 先从简单的开始说吧 上拉输入和下拉输入 看图 由上图可见 当IO口设置为上拉输入的时候 IO口内部的上拉电阻就被接上了 从字面意思可以理解
  • Java异常总结

    1 异常的定义 定义 异常又称例外 是程序执行过程中发生的事件 它会终止程序的正常执行 2 异常的分类 Error 是JVM内部产生的 不需要程序员去解决 是不受检查异常 非代码性错误 Exception 是用户程序可能出现的异常 它是用来
  • 单片机关于推挽输出和开漏输出

    什么是推挽输出 推挽输出既可以输出高电平也可以输出低电平 推挽式输出电路 推挽式输出电路是由互补的两个三极管构成 所谓推拉 推是指推出去 就是输出为高电平是 电流是由内流向外的 形象的称之为推 拉就是从外部向内部拉 当输出为低电平时 电流由
  • java设计模式——享元模式(Flyweight Pattern)

    概述 面向对象技术可以很好地解决一些灵活性或可扩展性问题 但在很多情况下需要在系统中增加类和对象的个数 当对象数量太多时 将导致运行代价过高 带来性能下降等问题 享元模式正是为解决这一类问题而诞生的 享元模式通过共享技术实现相同或相似对象的
  • java 抓取网页_Java抓取网页数据

    有时候由于种种原因 我们需要采集某个网站的数据 但由于不同网站对数据的显示方式略有不同 本文就用Java给大家演示如何抓取网站的数据 1 抓取原网页数据 2 抓取网页JavaScript返回的数据 一 抓取原网页 这个例子我们准备从http