JSON数据采集(采集JSON格式数据)

2023-11-01

如果想要采集JSON格式数据的网页怎么办?

Json数据格式的页面,常出现于以下场景:

1. 滚动加载页面采集(瀑布流加载采集);
2. 网址没有变化的页面采集;
3. 采集点击加载更多的页面;

这些页面我们都可以尝试使用简数采集器来实现JSON数据采集。

1. 获取JSON数据页面网址

使用浏览器的开发者工具尝试获取返回Json数据的网址,但注意并不是所有网站都可以获取到的。(以chrome浏览器为例)

在浏览器访问要采集的网址:

        1. 点击键盘F12或者鼠标右键检查进入开发者工具;

        2. 切换到Network界面,选择XHR筛选;

        3. 回到网站页面,点击页面的加载更多按钮,或者滚动下拉页面;

        4. 在Network界面出现对应的加载文件,查看Request URL的网址即可获取;

2. Json采集模式

在简数采集器的【列表提取器】页面中选择【Json数据】,即可切换为Json采集模式,需注意切换后不支持鼠标点选生成采集规则。

3. 获取JSON中的文章链接

网页采集器的Json采集模式,主要是查找获取Json数据中和文章页网址相关的一个属性值(例url或ArticleId或ID等),然后再组合成正确的文章页网址格式,系统会循环获取全部Json数据中对应的属性值,生成多个文章页网址。

  • 提取JSON键名:获取与文章页网址相关属性名称(一般是文章的网址或网址中数字id),例如url或ArticleId或ID等,只可填写一个;

  • 链接生成定义(参数模式,可选):组合成正确的文章页网址格式,如果获取的属性值已经是文章网址链接,则不填写;

  • 填写的格式:表示获取的属性值参数

    #[提取JSON键名]#

    例如【提取JSON键名】栏填写ArticleId,【链接生成定义】则为

    http://www.域名.com/news/#[ArticleId]#.html

4. 获取结果

完成Json采集模式配置,点击列表提取器页面右上角的【保存】按钮,再点击【测试提取JSON】按钮,页面左侧【数据预览】即会显示部分获取的文章网址链接,检查配置是否正确。

记得保存,接着完成文章页采集规则配置,就可以启动采集了。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

JSON数据采集(采集JSON格式数据) 的相关文章

随机推荐

  • Python的os.walk()方法详细讲解

    http www cnblogs com herbert archive 2013 01 07 2848892 html 写的特别清楚的一篇 http alanland iteye com blog 612459 我们可以看到 返回的是一个
  • jdk的环境搭建

    1 鼠标右键单击 此电脑 左键单击 属性 2 点击 高级系统设置 3 选择 环境变量 4 这里需要配置三个环境变量1 java home 2 classpash 3 path 其中1和2是系统中没有的需要新建 不区分大小写 1 java h
  • (机器学习实战)第四章

    都是在python3下面的 def loadDataSet postingList my dog has flea problems help please maybe not take him to dog park stupid my
  • linux常见文件夹名称及作用

    在Linux系统中 有许多常用的目录 每个目录都有其特定的作用和用途 以下是一些常见的Linux文件夹及其作用的示例 命令 公共 程序 bin 存放系统命令 二进制文件 如ls cp和mkdir等 这些命令可以在系统启动时使用 sbin 与
  • spark源码分析之shufflemanager

    1 shufflemanager的实现类 sortshufflemanager Spark 0 8及以前 Hash Based Shuffle 在Shuffle Write过程按照Hash的方式重组Partition的数据 不进行排序 每个
  • Java 使用esayExcel进行导出、导入包含多个sheet页面

  • Win10 CubeMX 安装java环境,安装不上去的问题解决

    问题描述 运行STM32CubeMX的时候 如果JAVA环境被破坏 会有如下问题 会自动弹出以下安装地址 Download Java for Windows 然后 在下载的文件 选择安装 点击安装后 就没有然后了 网上有建议 更改下面安装文
  • [ C语言 ]三子棋 代码实现

    引言 三子棋是一种简单而又有趣的棋类游戏 它可以帮助我们提高逻辑思维和决策能力 在本文中 我们将使用C语言来实现一个简单的三子棋游戏 并介绍一些基本的算法和技巧 一 游戏规则 1 游戏开始时 棋盘是空的 由两位玩家交替进行操作 2 玩家使用
  • 通过python写脚本简单爆破web页面登陆

    GET传参 import requests url payload username admin password admin submit 登陆 r requests get url params payload result r con
  • Jackson框架

    Jackson框架 一 Jackson简介 Jackson可以轻松的将Java对象转换成json对象和xml文档 同样也可以将json xml转换成Java对象 相比json lib框架 Jackson所依赖的jar包较少 简单易用并且性能
  • 金蝶EAS-BOS二开详细过程

    我们在做金蝶的项目时 经常会要求更改其项目本身的代码 但是它的代码都被封装在jar包中 我们应该怎么做呢 将要二开的单据实体或者facade 复制到我们的本地项目中 选中你要修改的具体实体或者facade 右键点击复制 重命名 复制到我们的
  • 配置Hadoop集群+WordCount案例

    配置Hadoop集群 配置环境变量 etc profile export HADOOP HOME bigData hadoop 2 8 0 export PATH P A T H PATH PATH HADOOP
  • cannot read property ‘line‘ of undefined

    环境 vite vue3 ts 这个问题的点还挺不明显的 翻了翻代码修改记录 发现是漏了结尾的 lt style gt 标签 做好本地代码管理真的很重要
  • gradle 两种更新方法

    第一种 Android studio更新 第一步 在你所在项目文件夹下 你项目根目录gradlewrappergradle wrapper properties 替换 distributionUrl https services gradl
  • 【算法/剑指Offer】地上有一个m行和n列的方格。一个机器人从坐标0,0的格子开始移动,每一次只能向左,右,上,下四个方向移动一格,但是不能进入行坐标和列坐标的数位之和大于k的格子。

    题目描述 地上有一个m行和n列的方格 一个机器人从坐标0 0的格子开始移动 每一次只能向左 右 上 下四个方向移动一格 但是不能进入行坐标和列坐标的数位之和大于k的格子 例如 当k为18时 机器人能够进入方格 35 37 因为3 5 3 7
  • java螺旋数组

    1 程序设计题 对于一个 n 行 m 列的表格 我们可以使用螺旋的方式给表格依次填上正整数 我们称填好的表格为一个螺旋矩阵 例如 一个 4 行 5 列的螺旋矩阵如下 1 2 3 4 5 14 15 16 17 6 13 20 19 18 7
  • jquery 等待3秒钟执行函数

    setTimeout function div2 hide 3000
  • CF1249B2 Books Exchange (hard version) 题解

    题目大意 共 q q q 组询问 对于每一组询问有长度为 n n n 的序列 p p
  • Linux进程内核栈

    进程创建的时候Linux内核会创建内核栈 arm手册也要求内核态有单独的栈 如应用进程在用户态通过系统调用陷入内核态的时候 上下文信息 如cpu寄存器 需要有个地方保存 如此 从内核态切换回用户态时候 能继续从系统调用之后的代码开始执行 这
  • JSON数据采集(采集JSON格式数据)

    如果想要采集JSON格式数据的网页怎么办 Json数据格式的页面 常出现于以下场景 1 滚动加载页面采集 瀑布流加载采集 2 网址没有变化的页面采集 3 采集点击加载更多的页面 这些页面我们都可以尝试使用简数采集器来实现JSON数据采集 1