一个比较好用的网络爬虫软件GooSeeker

2023-05-16

     最近要搜集一些新闻语料,看论文发现一个叫GooSeeker的爬虫软件还不错,看了一天多的教程终于跑起来了,趁着这会在抓新浪新闻过来发篇blog。

     这个爬虫是作为Firefox的插件出现的。一开始还觉得不够强大,后来一想着不正好把跨平台任务交给火狐去做了么,作者真是高明!我是在win7下跑的,linux没试过。

     说说黑盒两端吧,我是爬新浪新闻,由这个列表进去再爬新闻内容,最后给出的是由新闻标题和文字内容组成的xml文件,xml很规整,便于下一步自己处理。

     主要有两个部分组成吧MetaStudio和DataScraper。前者是定义抓取规则的,比较麻烦,主要时间再看这个。后者是抓取插件。

     下边就流水讲怎样爬这个2级页面的吧

     首先打开MetaStudio,将网址放进去,它自动加载进去。

     新建一个主题

     然后新建bucket,这里边的东西就是你要在该页面爬取得东西。

     刚bucket里的信息属性添加映射。这里有数据映射和FreeFormat映射,前边就是字符对应了,后边这个是他家的特色菜。比较智能吧。

     然后添加翻页线内线索Marker,就是控制你下一页下一页的

     然后添加二级索引,就是给bucket里的超链接添加的,定义一个主题

     然后上传到服务器

     然后打开DataScraper开始爬这个列表页,等你觉得够了就退出就行,我现在还没弄懂怎么自动停止。

     然后回到metaStudio,在里面识别你给二级索引建立的主题

     然后他自动加载一个样本页面,你再选择要抓取那些内容

     然后上传到服务器

     然后然后打开DataScraper开始爬二级页面,记着要用多少页面就写多少索引

     

     研究了一天半才大致弄清楚这个怎么个工作原理,然后才感觉这个软件写的好。真好。完全成了一个知识体系。看出制作团队功底很深。这种团队或个人早晚会发吧,或者人家已经发了。。。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

一个比较好用的网络爬虫软件GooSeeker 的相关文章

  • HiEV洞察 | 特斯拉HW4.0再爆猛料,高精定位、雷达均有变动

    作者 查理斯 编辑 王博 特斯拉 HW4 0 消息传出后 xff0c 有人爆料说在硬件层面发生了巨大变化 xff0c 引发行业轰动 大家都在猜测HW4 0 具体做了哪些改动 2月16日 xff0c Twitter用户greentheonly
  • VRPN介绍及使用

    VRPN 介绍及使用 VRPN 简介 Virtual Reality Peripheral Network xff08 VRPN xff09 由一系列的类库组成 xff0c 它也提供一系列的服务在虚拟现实系统中实现应用程序与外围物理设备 x
  • 基于bert模型的文本分类研究:“Predict the Happiness”挑战

    1 前言 在2018年10月 xff0c Google发布了新的语言表示模型BERT Bidirectional Encoder Representations from Transformers 根据他们的论文所言 xff0c 在文本分类
  • Bert演变总结

  • Tof,结构光,三角测距,RGBD,双目,激光雷达,毫米波雷达一文总结(一)

    Tof xff0c 结构光 xff0c 三角测距 xff0c RGBD xff0c 双目 xff0c 激光雷达 xff0c 毫米波雷达一文总结 距离测量算法解析TOF 飞行时间测距法超声波毫米波雷达激光雷达 最近在做一些无人车相关的工作 x
  • OCR-PIL.Image与Base64 String的互相转换

    1 基本环境 py2 python2 7 13py3 python3 6 2PIL pip 2 3 install pillow PIL库已不再维护 xff0c 而pillow是PIL的一个分支 xff0c 如今已超越PIL 2 Conve
  • Java中恒等条件判断:“equals”和“==”

    1 起因 xff1a 字符串恒等判断 String is reference type String str1 61 new String 34 hello 34 String str2 61 new String 34 hello 34
  • SQL小结

    1 SQL模糊查询 like 效率低 xff0c 容易全盘扫描 查找Name中包含字符 39 M 39 的数据 select ename from table where ename like 39 M 39 查找Name中第二个字母为 3
  • golang中的flag模块小结

    1 flag常用函数 无论是c语言还是golang语言或是其他语言 xff0c 启动应用程序时都可以带一些参数 xff0c 然后系统根据传入的参数进行特点的工作 如 xff1a main mode online model bert ch
  • Redis批量操作详解及性能分析

    通过mget批量执行指令可以节约网络连接和数据传输开销 xff0c 在高并发场景下可以节约大量系统资源 本文中 xff0c 我们更进一步 xff0c 比较一下redis提供的几种批量执行指令的性能 1 为什么需要批量执行redis指令 众所
  • NDCG:推荐系统/搜索评价指标

    本文转载自 胖喵 博主 xff0c 详细请看https www cnblogs com by dream p 9403984 html 1 CG xff1a 累计增益 CG xff0c cumulative gain xff0c 只考虑到了
  • 特征共线性问题

    多重共线性是使用线性回归算法时经常要面对的一个问题 在其他算法中 xff0c 例如决策树或者朴素贝叶斯 xff0c 前者的建模过程时逐渐递进 xff0c 每次都只有一个变量参与 xff0c 这种机制含有抗多重共线性干扰的功能 xff1b 后
  • 常见回归和分类损失函数比较

    文章转自知乎作者wdmad xff0c 更多内容建议阅读原文 xff1a https zhuanlan zhihu com p 36431289 本博文属于阅读笔记 xff0c 融合了个人观点 1 损失函数 损失函数的一般表示为 L y f
  • 获取keras中间层输出、模型保存与加载

    1 获取keras中间层输出 model summary and plot import keras from keras models import Model from keras utils import plot model Doc
  • HashMap底层实现和原理

    本文是在阅读知乎老刘作品后的整理 内容基于JDK1 7进行分析 xff0c 1 8做的改动文章末尾进行讲解 1 基本要义 1 1 概述 Hashmap在Map派生中的位置 HashMap基于Map接口实现 xff0c 元素以键值对的方式存储
  • 大疆激光雷达Livox Avia开箱及测试

    大疆激光雷达Livox Avia 箱子 从左至右为 xff1a 大疆激光雷达Livox Avia xff0c 电源转接插座 xff0c 内六角形L型扳手 xff0c 镜头清洁布 xff0c 螺钉包 xff0c 说明书 xff0c 1 5米航
  • Go协程与协程池

    1 Golang协程 golang和其它语言最大区别莫过于goroutine xff0c 也就是go的协程 xff0c example如下 xff1a package main import 34 fmt 34 import 34 time

随机推荐

  • Go协程池设计思路(Task-Job-Worker)

    1 铺垫 xff1a Go 的接收器Receiver 在go语言中 xff0c 没有类的概念 xff0c 但是可以给类型 xff08 结构体 xff0c 自定义类型 xff09 定义方法 所谓方法就是定义了接受者的函数 接受者定义在func
  • 系统间通信1:阻塞与非阻塞式通信A

    版权声明 xff1a 本文引用https yinwj blog csdn net article details 48274255 从这篇博文开始 xff0c 我们将进入一个新文章系列 这个文章系列专门整理总结了目前系统间通信的主要原理 手
  • 系统间通信1:阻塞与非阻塞式通信B

    版权声明 xff1a 本文引用https yinwj blog csdn net article details 48274255 接上篇 xff1a 系统间通信1 xff1a 阻塞与非阻塞式通信A 4 3 NIO通信框架 目前流行的NIO
  • 系统间通信2:通信管理与远程方法调用RMI

    本文引用 https yinwj blog csdn net article details 49120813 RMI Remote Method Invocation xff0c 远程方法调用 RPC Remote Procedure C
  • 系统间通信3:RPC的基本概念

    本文引用 https yinwj blog csdn net article details 49453303 1 概述 经过了详细的信息格式 网络IO模型的讲解 xff0c 并且通过JAVA RMI的讲解进行了预热 从这篇文章开始我们将进
  • 系统间通信4:基本IO通信模型

    本文引用 https blog csdn net yinwenjie article details 48472237 目前常用的IO通信模型包括四种 xff1a 阻塞式同步IO 非阻塞式同步IO 多路复用IO和真正的异步IO 所有IO模式
  • 深入理解Golang中的Context包

    context Context是Go语言中独特的设计 xff0c 在其他编程语言中我们很少见到类似的概念 context Context深度支持Golang的高并发 1 Goroutine和Channel 在理解context包之前 xff
  • ubuntu —— 命令行访问网页

    span class hljs variable style margin 0px padding 0px span sudo apt get install w3m span class hljs variable style margi
  • VINS-Mono 加rgbd

    通过对比VINS Mono与其RGBD版本 xff0c 分析其改动思路 一 feature tracker feature tracker node cpp 头文件加入了ros的多传感器时间戳 include lt message filt
  • MFC使用HttpGet和HttpPost方法与服务器通信

    处理过程封装到CHttpClient类中 同时支持http和https HttpClient h cpp view plain copy HttpClient h ifndef HTTPCLIENT H define HTTPCLIENT
  • 【Micropython】肝货~使用USB_VCP通过USB串口与树莓派或PC端通信

    为什么要使用USB VCP xff1f Micropython有很多串口 xff0c 例如PYboard xff0c 有5个串口可以使用 xff0c 但是 xff0c 平时我们在做一些项目的时候 xff0c 需要使用的引脚较多 xff0c
  • npm 401 BASIC realm=“Sonatype Nexus Repository Manager“

    今天在做vue项目 切换私服nexus npm login时 遇到了下面的问题error Unable to authenticate need BASIC realm 61 34 Sonatype Nexus Repository Man
  • 通过HTTP协议利用VC++ POST通信开发

    转载地址 xff1a https blog csdn net lhsxsh article details 4200486 void CMFCForm1Dlg OnBnClickedOk TODO 在此添加控件通知处理程序代码 CDialo
  • java源码解析JavaParser

    package com bootdo jparser import java io File import java io FileNotFoundException import com github javaparser JavaPar
  • 关于串口通讯查询与中断两种方式

    串口通讯有查询与中断两种方式 2011 09 13 13 31 我们知道串口通讯有查询与中断两种方式 xff0c 但是对于两种方式的区别很多人并不是非常清楚 xff0c 对于两者的实现到底有和不同呢 xff1f 让我们简单的总结如下 xff
  • linux 下postgresql遇到几个问题

    问题1 xff1a Job for postgresql service failed because the control process exited with error code See 34 systemctl status p
  • ActiveMQ连接数过多,导致ActiveMQ无法正常接入数据

    ActiveMQ跑了一段时间 xff0c 会出现连接数据过多的报错 Could not accept connection org apache activemq transport tcp ExceededMaximumConnectio
  • Axure嵌入Echarts图表--javascript (js)注入

    前言 用Axure做Web原型设计时 xff0c 经常会有图表 特别是大屏可视化或者数据可视化的原型中就更为常见 传统的方法是通过既有的图形或者曲线加上文字来实现 由于Axure可以通过javascript注入 的方法进行简单的拓展 xff
  • Axure嵌入Highcharts图表--javascript (js)注入

    前言 上次发现可以通过javascript js 注入实现在Axure 里引用Echarts图表 xff0c 提升原型展现能力 xff0c 特别是在高保真原型 既然可以实现Echarts的图表引用 xff0c 那么能否用同样的方法引用Hig
  • 一个比较好用的网络爬虫软件GooSeeker

    最近要搜集一些新闻语料 xff0c 看论文发现一个叫GooSeeker的爬虫软件还不错 xff0c 看了一天多的教程终于跑起来了 xff0c 趁着这会在抓新浪新闻过来发篇blog 这个爬虫是作为Firefox的插件出现的 一开始还觉得不够强