用python编写递归爬取多重网址的网站信息

2023-11-14

项目组要得到这个http://kalug.linux.org.tw/~shawn/project/thesis/目录网址下面的所有文件以及这个文件目录的下层目录以及更下层目录的文件包括这个，用迅雷，flashget好像都没这样的功能：找到给一个链接，然后再递归爬取这个链接下的所有链接的。
于是自己写了一个，好像还行o(∩_∩)o...呵呵下面是代码，这里主要爬取pdf与doc文件。


# -*- coding: utf-8 -*-
import urlparse,urllib,re,os
"""
this class is mainly used to crawl the deep url in the urls
do this work for 242
"""
class SpiderMulti:

    def read(self,url):
        urlli=self.analy(url)
        urldic = {}
        cutli=urlli[1:]
        for x in cutli:
            urldic.update(x)
        for url in [x.keys()[0] for x in cutli]:
            if self.islink(url,urldic):
                print url
                self.read(url)
            else:
                self.download(url,urldic)


    def analy(self,url):
        urlli=[]
        try:
            html=urllib.urlopen(url).read().split('\n')
            orignalUrl = url    #re.search(r'<h2>(.*?)</h2>',url,re.I|re.DOTALL)
            for eachline in html:
                #print eachline
                currentFind = re.search(r'href="(.*?)"',eachline,re.IGNORECASE|re.DOTALL)
                if currentFind:
                    urldic = {}
                    curUrl = urlparse.urljoin(orignalUrl,currentFind.group(1))
                    dirFind = re.search(r'class="t".*?>(.*?)<',eachline,re.IGNORECASE|re.DOTALL)
                    curDir = dirFind.group(1)
                    urldic[curUrl]=curDir
                    urlli.append(urldic)
        except:
            print 'can not open ',url
            pass

        #print urlli
        return urlli

    def islink(self,url,urldic):
        if urldic[url] == 'Directory':
            return True
        else:
            return False

    def download(self,url,urldic):
        print '=====:',url,urldic[url]
        if (self.isfile(url)):
            name = os.path.join(r'd:\data',url.split('/')[-1])
            print 'dowm:',url,name
            try:
                f=urllib.urlretrieve(url,name)
            except:
                print 'can not writtofile'
                pass

    def isfile(self,url):
        if re.search(r'doc$|pdf$',url,re.IGNORECASE|re.DOTALL):
            return True
        else:
            return False



if __name__=='__main__':
    t=SpiderMulti()
    url='http://kalug.linux.org.tw/~shawn/project/thesis/'
    t.read(url)

解释一下：
1、主函数是read()，在这里面实现递归。

2、analy(url)函数分析传入的url，提取出该页的url链接，当然如果你要用你自己的url这里需要改变的是正则表达式的匹配规则。返回一个列表，列表的元素是字典，key是当前的链接地址，值是该地址对应的类型（这里主要是针对该类网站这样设计的，大家可以打开看看网页
的结果）。

3、islink()函数是判断输入的url是不是目录，如果是则递归执行read()函数

4、download()函数是：输入的链接对应的是个文件，但是不一定是我们想要的pdg或者doc文件，所以先用isfile()函数判断一下，然后再进行下载，完成任务。呵呵

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

用python编写递归爬取多重网址的网站信息的相关文章

使用 openCV 对图像中的子图像进行通用检测

免责声明我是计算机视觉菜鸟我看过很多关于如何在较大图像中查找特定子图像的堆栈溢出帖子我的用例有点不同因为我不希望它是具体的而且我不确定如何做到这一点如果可能的话但我感觉应该如此我有大量图像数据集有时其中一些图像是数据集的
如何收集列表、字典等中重复计算的结果（或制作修改每个元素的列表的副本）？

There are a great many existing Q A on Stack Overflow on this general theme but they are all either poor quality typical
批量删除文件名中包含 BASH 中特殊字符的子字符串

我的目录中有一个文件列表 opencv calib3d so2410 so opencv contrib so2410 so opencv core so2410 so opencv features2d so2410 so opencv
导入错误：没有名为 _ssl 的模块

带 Python 2 7 的 Ubuntu Maverick 我不知道如何解决以下导入错误 gt gt gt import ssl Traceback most recent call last File
pandas 替换多个值

以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
SQL Alchemy 中的 NULL 安全不等式比较？

目前我知道如何表达 NULL 安全的唯一方法 SQL Alchemy 中的比较其中与 NULL 条目的比较计算结果为 True 而不是 NULL 是 or field None field value 有没有办法在 SQL Alchem
为 pandas 数据透视表中的每个值列定义 aggfunc

试图生成具有多个值列的数据透视表我知道我可以使用 aggfunc 按照我想要的方式聚合值但是如果我不想对两列求和或求平均值而是想要一列的总和同时求另一列的平均值该怎么办那么使用 pandas 可以做到这一点吗 df pd D
Python tcl 未正确安装

我刚刚为 python 安装了graphics py 但是当我尝试运行以下代码时 from graphics import def main win GraphWin My Circle 100 100 c Circle Point 50
在循环中每次迭代开始时将变量重新分配给原始值（在循环之前定义）

在Python中你使用在每次迭代开始时将变量重新分配给原始值在循环之前定义时也就是说 original 1D o o o for i in range 0 3 new original 1D revert back to orig
python 集合可以包含的值的数量是否有限制？

我正在尝试使用 python 设置作为 mysql 表中 ids 的过滤器 python集存储了所有要过滤的id 现在大约有30000个这个数字会随着时间的推移慢慢增长我担心python集的最大容量它可以包含的元素数量有限制吗您最大
Python：字符串不会转换为浮点数[重复]

这个问题在这里已经有答案了我几个小时前写了这个程序 while True print What would you like me to double line raw input gt if line done break else f
SSH，运行进程然后忽略输出

我有一个命令可以使用 SSH 并在 SSH 后运行脚本该脚本运行一个二进制文件脚本完成后我可以输入任意键本地终端将恢复到正常状态但是由于该进程仍在我通过 SSH 连接的计算机中运行因此任何时候它都会登录到stdout我在本地终
如何将 numpy.matrix 提高到非整数幂？

The 运算符为numpy matrix不支持非整数幂 gt gt gt m matrix 1 0 0 5 0 5 gt gt gt m 2 5 TypeError exponent must be an integer 我想要的是 oct
Python - 按月对日期进行分组

这是一个简单的问题起初我认为很简单而忽略了它一个小时过去了我不太确定所以我有一个Python列表datetime对象我想用图表来表示它们 x 值是年份和月份 y 值是此列表中本月发生的日期对象的数量也许一个例子可以更好地证明这
Python - 在窗口最小化或隐藏时使用 pywinauto 控制窗口

我正在尝试做的事情我正在尝试使用 pywinauto 在 python 中创建一个脚本以在后台自动安装 notepad 隐藏或最小化 notepad 只是一个示例因为我将编辑它以与其他软件一起使用 Problem 问题是我想在安装程序
通过数据框与函数进行交互

如果我有这样的日期框架氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
如何从没有结尾的管道中读取 python 中的 stdin

当管道来自打开时不知道正确的名称我无法从 python 中的标准输入或管道读取数据文件我有作为例子管道测试 py import sys import time k 0 try for line in sys stdin k k
如何使用google colab在jupyter笔记本中显示GIF？

我正在使用 google colab 想嵌入一个 gif 有谁知道如何做到这一点我正在使用下面的代码它并没有在笔记本中为 gif 制作动画我希望笔记本是交互式的这样人们就可以看到代码的动画效果而无需运行它我发现很多方法在 Goo
使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

我有一个 Pandas 数据框它有两列一列进程参数列包含字符串另一列值列包含相应的浮点值我需要过滤出部分匹配列过程参数中的一组键的子数据帧并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce
FileOutputStream.close() 中的设备 ioctl 不合适

我有一些代码可以使用以下命令将一些首选项保存到文件中FileOutputStream 这是我已经写了一千遍的标准代码 FileOutputStream out new FileOutputStream file try BufferedOu

随机推荐

还在用夸克？这3款能安装插件的手机浏览器不香吗

说到浏览器插件很多人想到的多数是电脑上的玩法实际上随着手机浏览器功能越来越完善很多手机浏览器已经开始支持插件的使用也就是说支持安装插件的手机浏览器不仅能体验如电脑般丝滑强大的功能而且又不会造成内存过分臃肿开启响应缓慢的问题
GLSL着色器的正确文件扩展名是什么？

openGL系列文章目录文章目录 openGL系列文章目录前言一 glslangValidator exe工具使用二着色器程序后缀名前言我正在学习glsl着色我遇到了不同的文件格式我见过人们给出他们的顶点和片段着色器 ve
Java中在特定区间产生随机数

原文地址 http blog sina com cn s blog 59aebaa10100ct47 html 参考地址 http blog csdn net codefunjava article details 44408555 htt
贝叶斯分类器-机器学习ML

参考 1 统计学习方法李航 2 https baike baidu com item E8 B4 9D E5 8F B6 E6 96 AF E5 88 86 E7 B1 BB E5 99 A8 1739590 fr aladdin 3 h
力扣｜错误的集合 C语言

题目连接错误的集合集合 s 包含从 1 到 n 的整数不幸的是因为数据错误导致集合里面某一个数字复制了成了集合里面的另外一个数字的值导致集合丢失了一个数字并且有一个数字重复给定一个数组 nums 代表了集合 S 发生错误
浅析muduo库中的定时器设施

一个设计良好的定时器在服务端的应用程序上至关重要 muduo定时器的实现陈硕大牛在书中已经详细的谈过笔者尝试从源码的角度解读定时器的实现如果理解不对欢迎指正在muduo的定时器系统中一共由四个类 Timestamp Timer T
学习CSSGrid布局

一重要术语 CSS Grid 网格布局又称为 Grid 网格是一个二维的基于网格的布局系统它的目标是完全改变我们基于网格的用户界面的布局方式 FlexBox 一维布局 Grid 二维布局 Flexbox 和 Grid 能协同工作
C# 文件IO

文章目录判断某个文件夹是否存在获取当前运行程序 exe或dll 所在路径创建文件夹移动剪切文件夹复制文件创建文件覆盖写文件方式一使用FileStream 方式二使用StreamWriter 追加写文件读文件一一
springBoot国际化的一种方式

引言当我们的应用面向不同国家用户时根据不同的locale返回不同的语言信息的国际化功能就显得有必要了一般来说国际化主要表现在前端用户界面上在现在前后端分离的背景下前端页面的国际化交由前端代码独立完成少部分表现在后端上后端主要表
HTML存储详解

和大家一起先来了解一下H5之前的存储方式 cookies的诞生 http请求头上带着数据大小只能为4K 主Domain的污染下面是百度的一些Cookies HTTP中带的表示只能被服务器端修改的数据一般用来存储身份验证等信息 co
搞清axis的含义，这一篇就够了！

文章目录 axis的含义旁门左道式理解二维数组中的axis 三维数组中的axis 正规理解 axis的含义在自己分析之前先摆上官方关于多维数组中axis的值的定义 axis 0 表示第一个维度 axis 1 表示第二个维度 axis
Java异步调用的几种方式

一通过创建新线程二通过线程池三通过 Async注解四通过CompletableFuture 日常开发中会经常遇到说前台调服务然后触发一个比较耗时的异步服务且不用等异步任务的处理结果就对原服务进行返回这里就涉及的Jav
css3 transaction display,HTML5+CSS3 本地数据库基本

HTML5 CSS3 本地数据库基本 Web SQL Database 本地数据库是一个已经废弃的规范但是鉴于除了IE和Firefox 其他浏览器都已经实现了Web SQL Database 并且它还具有一些Storage 存储所不具
Windows更新CUDA

经过整整一天的奋战终于成功更新了CUDA 特此记录一下这个艰难的过程最最最先要确定的是你的电脑得是支持GPU的一查看电脑现存CUDA版本电脑搜索NVIDIA 在出现的页面中的左下角点击系统信息出现以下界面可以看到驱动版本是
LXC 3.0交叉编译

LXC交叉编译代码下载 git clone https github com lxc lxc git 代码文件编译编写交叉编译文件 host machine system linux cpu family arm cpu arm end
redis的持久化和主从复制

什么是redis持久化 redis作为一个键值对内存数据库 nosql 数据存储在内存当中在处理客户端请求时所有操作都是在内存当中运行问题存储在内存中的数据只要服务器关机内存中的数据就会消失不仅服务器关机会造成数据消失 re
VMware虚拟机安装Linux系统

文章目录前言一 Linux是什么二安装步骤 1 新建虚拟机 2 安装CentOS 7 总结前言之前使用VMware虚拟机安装了Windows系统本文讲的是使用VMware虚拟机安装Linux系统提示以下是本篇文章正文内容
Modbus通信协议详解

一 Modbus 协议简介 Modbus 协议是应用于电子控制器上的一种通用语言通过此协议控制器相互之间控制器经由网络例如以太网和其它设备之间可以通信它已经成为一通用工业标准有了它不同厂商生产的控制设备可以连成工业网络进行
APPCAN + wampserver 实现简单的个人登录功能

开发背景 Appcan wampserver 其中wampserver主要用于提供本地服务器和数据库这是软件开发工程这门课中的一个大作业需要实现 1 首页 index html 首页包含滚动图片新闻列表和导航栏首页内容通过Requ
用python编写递归爬取多重网址的网站信息

项目组要得到这个http kalug linux org tw shawn project thesis 目录网址下面的所有文件以及这个文件目录的下层目录以及更下层目录的文件包括这个用迅雷 flashget好像都没这样的功能找到给一个链

用python编写递归爬取多重网址的网站信息

用python编写递归爬取多重网址的网站信息 的相关文章

随机推荐

热门标签

用python编写递归爬取多重网址的网站信息的相关文章