爬虫中网页分析的几种技术

2023-10-27

一般来说我们只抓取网页中的特定数据，比如抓取某人所有的blog，我们就只关心list 页面中文章列表那部分的链接和title

有几种技术可以用来分析网页

1）正则匹配

2）一般字符串匹配content.substring(pattern, startIndex)，一般是带有startIndex的substring，而不是每次都是从头匹配

3) 基于sax的事件

4）DOM + XPath

抓去的数据有两种

1）基于数据本身的parttern，比如链接、email adrress，适合用正则

2）基于位置。数据本身没什么特别，关键在于在什么位置出现。适合用其他3种，

基于sax事件的最好，流式处理，不需要存储整个网页，缺点是有些网页不规范，sax 要求必须是合法、well formed xml。

substring和正则一般需要先把网页读成字符串，substring更简单轻量级一些，

DOM+xpath太杀鸡用牛刀了

例子，把自己csdn上所有的博文扒下来：

from urllib2 import Request, urlopen, URLError

page, articleList, visited, startOver = 1, [], set(), False
while not startOver:
    req = Request('http://blog.csdn.net/binling/article/list/' + str(page), headers={'User-agent': 'Mozilla 5.10'})
    try:content = urlopen(req).read()
    except URLError, e: break
    pos = 0
    while True:
        try:
            pos = content.index('link_title', pos)
            pos = content.index('href', pos)
            pos = content.index('"', pos)
            end = content.index('"', pos + 1)
            link = content[pos + 1:end].strip().decode('utf-8')
            if link in visited:
                startOver = True
                break
            pos = content.index('>', end)
            end = content.index('</a>', pos)
            title = content[pos + 1: end].strip()
            articleList.append((title.decode('utf-8'), link))
            visited.add(link)
        except: break
    page += 1

home = 'C:\\Personal\\CSDN'
for title, link in articleList:
    for c in '/\*:<>?"|':
        if c in title: title = title.replace(c, ' ')
    content = urlopen(Request('http://blog.csdn.net' + link, headers={'User-agent': 'Mozilla 5.10'})).read()
    with open(home + '\\' + title + '.html', 'w') as f:
        f.write(content)
        print title

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

parser

系统分析设计

爬虫中网页分析的几种技术的相关文章

args = parser.parse_args() SystemExit: 2 解决方案

问题描述今天运行程序 xff0c 突然报错 xff1a args 61 parser parse args args 61 SystemExit 2 查阅网上解决方案无果 xff0c 于是自己检查了错误信息 xff0c 哦 xff0c 原
使用http_parser解析URL

转载自 xff1a https www iteye com blog shangxun 2139443 使用http parser解析URL 用C语言编写http应用 xff0c 解析URL是一个繁琐的事儿前几天使用http parser
python中html.parser_python模块之HTMLParser简介

html parser是一个非常简单和实用的库 xff0c 它的核心是HTMLParser类工作的流程是 xff1a 当你feed给它一个类似HTML格式的字符串时 xff0c 它会调用goahead方法向前迭代各个标签 xff0c 并调
Cannot find module 'body-parser'

bug Cannot find module 39 body parser 39 原因很明显 xff0c 这个模块是没有的 xff0c 查看node modules目录下 xff0c 确实没有解决办法 xff1a 重新安装这个模块 xff
使用http_parser解析URL

用C语言编写http应用 xff0c 解析URL是一个繁琐的事儿前几天使用http parser实现httpclient xff0c 发现里面提供了一个解析URL的方法http parser parse url xff0c 用起来相当方便
Cannot find module ‘body-parser‘

node modules下模块缺失解决方案 xff1a npm install span class token operator span save body span class token operator span parser
资源调度器的一些基本问题

1 调度算法 Capacity based DRF dominant recourse fairness label based等多态化插件化可以多种策略一起工作对应于不同Job 优先级 job特性 service or batch
爬虫中网页分析的几种技术

一般来说我们只抓取网页中的特定数据比如抓取某人所有的blog 我们就只关心list 页面中文章列表那部分的链接和title 有几种技术可以用来分析网页 1 正则匹配 2 一般字符串匹配content substring pattern s
背包问题，硬币问题

至少有4种背包问题 1 01背包 2 部分背包 3 完全背包 4 多重背包只有部分背包是个贪心问题其他的都是以01背包为基础的动归问题部分背包问题把物品按价值密度从大到小排序 W i V i 然后从第一种物品开始尽可能多拿当前物品
random_queue：支持push, popRamdom的数据结构

pop哪一个元素决定了queue stack priority queue的不同新加一个random queue 等概率的从集合里取出一个元素pop 1 先用rand int l int r 得到一个随机位置 2 和top交换 3 to
二叉树 level order 遍历问题汇总

一如何确定层结束 1 维护一个levelEnd 如果当前结点等于level end 更新levelEnd 为queue back 注意先判断queue是否empty 最后一层结束后 queue就空了 2 维护一个curLevelNum 和
搜索提示是如何实现的

经典的想法就是一个Trie的 keysWithPrefix 问题更高级的进一步考察 keysWithPrefix需要做prefix下的inOrder遍历但是每当用户type下一个字符那个提示列表瞬间就显示出来了不像是遍历很大一棵树
Regular Expression实现

主要分2大块核心部分就是一个NFA 只支持标准正则的操作 concatenation union iteration 限定上限的iteration 对应的meta character只有 upper 扩展部分这部分是把扩展正则表达式转
大数据问题汇总

1最基本的一个数据流文件求top k biggest solution 维护大小为K的最小堆和堆顶比大于堆顶的加入堆堆顶相当于准入门槛如果size 超过K 移除堆顶 vector
基于HashHeap的LFU实现

普通heap支持的操作和queue stack一样就是push pop 只是pop出的是最小值具体点就是add delMin hashheap支持一般HashMap的功能同时维护最小值和LinkedHashMap是对等的后者是Ha
面向对象OO 设计、架构终极理解，以及如何学习一个领域

程序就是一些互相引用的内存快互相发消息每个内存块就是一个状态机状态的迁移规则是定制好的一些消息方法构造函数用来初始化状态一个内存块的方法除了改变自身状态也有可能向引用的别内存快发消息引起别的内存块发生状态转移重点不在过程化
mds的 labelIndex 静态预排序

一般排序是数据 doc resultItem 取出来之后按某个某个字段的值排序也就是必须拿到doc resultItem之后才能排序 mds排序的特点是在取resultItem之前就排序不是对resultItem排序而是对docId
再谈缓存

凡是涉及管理数据的系统都可以用图书馆来考虑都要面临图书的位置查找和实际摆放两个问题对应的两大组件就是就是index store 所有的数据管理系统都包含这两部分缓存从过期又什么触发的角度分为容量触发和时间触发容量触发就是缓存满了
有限自动机总结

有限自动机A用来识别字符串它由5部分组成 1 alphabet 字符集 2 states 状态集合 3 init 初始状态 4 trans s ch 状态转移函数 5 end 可接受state 集合 A str true的意思是 A可以接
递归、加法原理，如何分解问题（独立且完备的划分）

加法原理适用于做一件事有n种独立不相交且完备的方向每个方向上有ai种方案则总的方案数就是 a1 a2 an 例题把n个数分为k个非空子集有多少种分法分解问题第一个集合里放多少个数把原问题的解分成了独立且完备的若干方向分别解每个

随机推荐

jmeter 接口快速创建

通过cURL命令创建测试计划从浏览器获取接口从postman获取接口
postgresql 创建自增索引（序列）、以及索引（序列）相关操作

PostgreSQL 没有自增索引的概念需要通过序列来完成相关操作 PostgreSQL 使用序列来标识字段的自增长数据类型有 smallserial serial 和 bigserial 这些属性类似于 MySQL 数据库支持的 AU
java 的循环输入

书本7 3 计算数字出现的次数
在MFC中怎样添加一个非模态的对话框

添加一个非模态对话框1 点击菜单插入资源选择Dialog 点击新建 2 编辑对话框添加一些控件什么的 3 双击对话框或者打开ClassWizard 为对话框建立一个类如CMyDialog 4 在 view cpp的开头添加新建立的
SSM之mybatis：修改了Mybatis的xml文件不生效

这两天写一个项目是修改了下mybatis的xml文件中的一个sql语句结果发现修改后的xml文件始终不生效情况是这样的一开始我的语句
七、C++语言初阶：模板

7 模板 7 1 基本概念什么是模板模板 Template 是允许函数或者类通过泛型 generic types 的形式表现或运行的特性模板有什么用模板可以使函数或者类只写一份代码而对应不同的类型模板编程泛型编程一种独立于特定
三维SLAM路径规划——MATLAB实现

三维SLAM路径规划 MATLAB实现在机器人视觉和导航领域中 SLAM是一个非常重要的问题 SLAM的全称为 Simultaneous Localization and Mapping 即同时定位和地图构建而在SLAM中路径规划则是
将photoscan空三结果导入smart3d(cc)

将photoscan空三结果导入smart3d cc 1 photoscan版本要求1 4 0以上 2 在photoscan跑出空三结果后点击Export Camera导出空三选择Blocks Exchange格式保存 3 打开导出的x
LATEX 和 TEX 相关的术语和概念

目录引擎格式编译命令常见的引擎格式和编译命令的关系总结几个编译命令的基本特点引擎全称为排版引擎是编译源代码并生成文档的程序如pdfTEX X TEX 等有时也称为编译器格式是定义了一组命令的代码集 LATEX 就是
计算机视觉基础（四）——图像滤波

图像的实质是一种二维信号滤波是信号处理中的一个重要概念在图像处理中滤波是一种非常常见的技术它们的原理非常简单但是其思想却十分值得借鉴滤波是很多图像算法的前置步骤或基础掌握图像滤波对理解卷积神经网络也有一定帮助均值滤波方框滤
全国企业税收调查数据（2007-2016）共10年数据，均未脱敏。可通过纳税人识别号，识别具体企业名称和地区信息等，可匹配中国工业企业数据库，中国出口海关统计数据、中国企业污染排放数据库、中国海关数据
《Redis设计与实现》读书笔记-第一部分：数据结构与对象

目录 1 1简单动态字符串 SDS 1 2链表 1 3字典符号表关联数组映射 1 3 1字典的实现 1 4跳跃表 1 5整数集合 1 6压缩列表 1 7对象 1 7 1对象的类型与编码 1 7 2字符串对象 1 7 3列表对象 1 7
百度翻译接入API实现自己的翻译小页面（原生JS+Vue+elementui）

通过这个API实现翻译主要是重温Vue在js中的写法结合了elementui2 x版本的写法 VUE和ElementUI都是cdn引入的失效去官网下粘贴一份换了就行就是练练手前提需要在百度翻译页面注册个开发者账号获取appid和k
利用blktrace分析磁盘I/O

blktrace对于分析block I O是个非常好的工具本篇文章记录了如何使用blktrace blktrace原理 blktrace是对通用块层 block layer 的I O跟踪机制它能抓取详细的I O请求 request 发送
【腾讯轻量应用服务器上部署kafka并通过flink读取kafka数据】

环境准备经过1个月的摸索最终选择在腾讯云上搭建一个学习环境当时选择原因还是新用户有优惠 150左右3年但现在看1核2g的配置勉强够用建议后续小伙伴选择时最好是2核4g配置由于是单节点安装需要准备如下资源 1 jdk1 8 2
漏洞情报

点击上方订阅话题第一时间了解漏洞威胁 0x01 漏洞描述 Windows Print Spooler是Windows的打印机后台处理程序广泛的应用于各种内网中微软在2021年6月的安全更新中修复了一处 Windows Print S
解决elementUI中el-form、el-dialog、数据回显同时用时，有bug

提示记录学习elementUI时遇到的一些问题及解决办法前言现象第一次打开网页先点击修改再点击新增发现输入框竟然有值原因点击修改后关闭对话框的时候置空失效了分析主人公resetFields有问题线索1 Dialo
Dart 根据当前年份和第几周获取该周的开始和结束日期

最近遇到一个需求计算当前年份有多少周网上查阅了资料得到以下计算方式 Calculates number of weeks for a given year as per https en wikipedia org wiki ISO w
r HDU - 3709 Balanced Numbe(数位dp解析)

题目链接 https vjudge net contest 355127 problem C Problem Description A balanced number is a non negative integer that can
爬虫中网页分析的几种技术

一般来说我们只抓取网页中的特定数据比如抓取某人所有的blog 我们就只关心list 页面中文章列表那部分的链接和title 有几种技术可以用来分析网页 1 正则匹配 2 一般字符串匹配content substring pattern s

爬虫中网页分析的几种技术

爬虫中网页分析的几种技术 的相关文章

随机推荐

热门标签

爬虫中网页分析的几种技术的相关文章