python多线程爬虫教学,清晰易懂。

2023-05-16

首先需要知道什么是多线程,多线程的作用。
首先举个例子,并发和并行:

并发:并发,在操作系统中,是指一个时间段中有几个程序都处于已启动运行到运行完毕之间,且这几个程序都是在同一个处理机上运行,但任一个时刻点上只有一个程序在处理机上运行。
并行:并行是指“并排行走”或“同时实行或实施”。在操作系统中是指,一组程序按独立异步的速度执行,不等于时间上的重叠(同一个时刻发生)。

例子:吃一碗米饭和菜。并发:一个人吃,吃完一口米饭再吃一口菜,切换速度快,感觉是同时进行的。并行:两个人吃,一人吃饭一人吃菜,真正的同时进行。

而Python的多线程本质就是并发,听起来是同时进行多个事情,但是微观上是进行一件事情的时间很短,然后在执行另一个事情,只是速度很快,让人看起来是同时进行的。

然后呢,为什么要多线程,Python有多线程和多进程,多协程,多进程就是并行,每一种都有自己适合的用途,比如爬虫,多线程就比多进程要好,但是多线程更复杂一些。例如你有一个网址,需要抓取详情页,在抓取详情页里面的很多内容,这个时候就可以在抓取详情页里的链接后用多线程一起抓取。

这里使用的模块是threading(),没下载的可以在命令行pip install threading

import threading
import time

class mythread(threading.Thread):
    def __init__(self,name,ls2):#参数根据自己的需要改变
        threading.Thread.__init__(self)#必须有的
        self.name=name
        self.ls2=ls2
    def run(self):#线程运行函数
        F1(self.name,self.ls2)#主要函数

先构造一个类,引用父类threading.Thread。

def F1(name,ls2):
    time.sleep(2)
    print('%s : %s : %s \n' % (name,time.ctime(time.time()),ls2))

上面这些都是多线程的初始设置方面,接下来就是启动和结束线程。

over=[]
#创建url列表
ls=[]
for i in range(30):
    ls.append(i)

for i in range(3):
    #列表分为三类
    ls2=[]
    a=len(ls)//3
    ls2.append(ls[i*a:i*a+a])
    #创建线程,并将分裂的url导入线程
    threadtext = mythread('线程'+str(i),ls2)#导入线程初始设置的参数
    threadtext.start()#启动线程
    over.append(threadtext)#将线程导入接下来结束的列表中

print('当前线程活动数为:'+str(threading.active_count()))
for i in over:
    i.join()#线程阻塞,使子线程在主线程结束前一直运行。

print('线程全部结束')

基本上格式就上面的那些,爬虫抓取数据的步骤可以写在一个函数里面,然后在run里面调用。

import time
import threading

class mythread(threading.Thread):
    def __init__(self,name,ls2):
        threading.Thread.__init__(self)
        self.name=name
        self.ls2=ls2
    def run(self):
        shiyan()
        F1(self.name,self.ls2)


def F1(name,ls2):
    time.sleep(2)
    print('%s : %s : %s \n' % (name,time.ctime(time.time()),ls2))


over=[]
#创建url列表
ls=[]
for i in range(30):
    ls.append(i)

for i in range(3):
    #列表分为三类
    ls2=[]
    a=len(ls)//3
    ls2.append(ls[i*a:i*a+a])
    #创建线程,并将分裂的url导入线程
    threadtext = mythread('线程'+str(i),ls2)
    threadtext.start()
    over.append(threadtext)

print('当前线程活动数为:'+str(threading.active_count()))
for i in over:
    i.join()

print('线程全部结束')
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python多线程爬虫教学,清晰易懂。 的相关文章

  • Promise 控制并发请求数量

    Promise 控制并发请求数量 前言 xff1a 浏览器对对同一个服务器的并发数是有限制的 xff0c 参考如下表格 xff08 表格来源于网络 xff0c 未进过严谨测试 xff09 xff1a 浏览器HTTP 1 1HTTP 1 0I
  • 树莓派自动连接WiFi

    将USB无线网卡插入树莓派任一USB接口 xff0c 插上网线 xff0c 接通电源 xff1b 在个人电脑上通过ssh连接树莓派 xff0c 默认帐号是pi xff0c 默认密码是raspberry xff08 如何通过ssh连接树莓派
  • 【DragonBoard 410c】悲催的开箱体验

    这里非常感谢辉哥提供的龙板 这块板子是实验室的学长从高通公司争取过来赠送给我们实验室的 xff0c 从美国寄过来的 xff0c 遗憾的是 xff01 里面没有Android系统 xff01 xff01 以至于我开机折腾了许久 首先 xff0
  • 2017CVTE嵌入式研发岗实习生面经

    本人普通高校大三学生 xff0c 准备在暑假找一份嵌入式实习工作 xff0c 因为实验室一学长去年通过实习生通道成功拿到正式岗offer 而且CVTE在嵌入式这一行的工资福利等都是相当诱人 xff0c 所以我的目标就是首先要拿到cvte的实
  • 安装Ubuntu过程及遇到的问题

    需要的装备 xff1a 1 不小于4G的U盘或者内存卡 43 读卡器也可以 2 UltraISO xff08 使用方法http jingyan baidu com article d169e186800f02436711d87b html
  • 北邮某牛人找工作切身感受

    转自北邮人论坛 by xiaoxuanzi xff08 值得全部看完 xff09 找工作历程基本上要截止了 Offer再多也只能去一个 xff0c 也省了纠结 xff0c 顺便帮等攒人品 Offer搞定能一起happy xff0c 寝室MM
  • DNW下载文件时出现can not open /dev/secbulk0

    在学习过程中碰到了如上的问题 xff0c 在参考了不少博客之后解决了这个问题 首先到这里下载DNW安装包 xff1a http download csdn net detail david xtd 7401761 这里面有两个文件夹dnw和
  • VMware非正常关闭导致打开虚拟机时提示:未找到.vmx文件

    上次手残将VMware直接关闭 xff0c 导致第二次打开虚拟机时提示 vmx文件未找到 根据这个原理 xff0c 可能其他后缀的文件丢失也可以利用相同的原理 xff0c 就是重新建一个虚拟机 xff0c 然后就能得到相同的文件 xff0c
  • 图片合集

    HDMI接口物理地址理解
  • 操作系统--freeRTOS 双向链表解读(list)

    1 简介 本文依据的freeRTOS版本是V9 0 0版本 xff0c 本文将分析链表文件的结构体 xff0c 主要根据其list c和list h文件 2 list h文件解析 span class token comment FreeR
  • socket通信(自己的程序)

    socket相关知识 xff1a socket相关基础知识 xff1a http www cnblogs com skynet archive 2010 12 12 1903949 html 非阻塞socket xff1a http blo
  • NVIDIA Jetson TX2重装系统

    博主所用的Jetson TX2初始环境及相关方面的介绍见前两篇博客 NVIDIA Jetson TX2简介 竹叶青lvye的博客 CSDN博客 nvidiatx2 NVIDIA Jetson官网资料整理 竹叶青lvye的博客 CSDN博客
  • Jetson TX2配置Tensorflow、Pytorch等常用库

    之前在PC Ubuntu或者树莓派上都配置过 方法不变 所以此篇博客会简单记录 下过程 详细的一些方法思路可以去参考博主之前的系列博客 虽然硬件平台不一样 但方法大体一致的 硬件平台主流的有树莓派 NVIDIA Jetson Google的
  • Macbook pro外接显卡实现深度学习

    耗时一整天加一晚上终于成功了安装配置外接GPU并运行深度学习案列 故事的缘由 2017年底鬼使神差的买了个macbook xff0c 放在家里吃了一年灰 xff0c 心想还是要用起来啊 目前主要从事数据挖掘机器学习的工作 xff0c 需要搞
  • Gradle技术之一 Groovy语法精讲

    Gradle技术之一 Groovy语法精讲 gradle脚本是基于groovy语言开发的 xff0c 想要学好gradle必须先要对groovy有一个基本的认识 1 Groovy特点 groovy是一种DSL语言 xff0c 所谓的DSL语
  • 字符串子串的查找

    1 考虑用标准函数库中 strstr 函数 包含文件 xff1a string h 函数名 strstr 函数原型 xff1a extern char strstr char str1 char str2 功能 xff1a 从字符串str1
  • 大锤老湿教您如何配置TP-Link路由器组建wifi上网

    TP Link路由器设置教程 大家好 xff0c 今天由大锤老湿教大家如何设置使用最广的TP Link路由器 一般家庭都希望能上wifi 那么首先看看我们如何将新买回的或者由于故障已经恢复成重置出厂状态的路由器 xff0c 如何经过重新设置
  • 【ESP01S】使用串口调试助手,发送AT指令收回的是乱码/重复一遍AT指令发回的问题

    调试帮助 span class token punctuation span 技术交流Q xff1a span class token number 1083091092 span xff08 备注CSDN xff09 一 问题描述 在使用
  • 刷leetcode使用python还是c++?

    我身边80 的程序员朋友在刷题的时候会选择Java xff0c 很少有人用C 43 43 来刷题 这两门语言各有特点 xff1a C 43 43 xff1a 从C语言发展过来的一门语言 xff0c 继承了灵活 xff08 可以潜入任何现代的
  • VINS-Mono代码精简版代码详解-后端非线性优化(三)

    非线性优化部分代码解析 之前已经对VINS Mono的初始化部分进行了介绍 xff0c 下面结合代码和公式介绍其非线性优化部分 本文部分参考 https blog csdn net u012871872 article details 78

随机推荐

  • Ubuntu IO占用过多导致文件读取变慢的原因查找方法

    问题描述 xff1a 多用户服务器 xff0c ubuntu系统 xff0c 突然点开文件夹 xff0c 发现变慢 查看方法 xff1a step1 xff1a 进入管理员用户 step2 xff1a 运行iostat x 1 在显示的结果
  • ROS Docker

    Docker 常用指令 docker pull osrf ros galactic desktop 从网络上下载镜像 docker images 查看已加载镜像列表 window docker界面 xff1a 命令行结果 xff1a doc
  • Win10C盘文件夹内容详解(持续更新,欢迎留言)

    本文参考以下博客 Roaming和Local的区别 C Users 用户名 AppData 1 Local和Roaming之间的区别 xff1a Local 比较大 xff0c 非漫游应用数据 Roaming 一般是漫游应用数据 2 Roa
  • STM32运行FreeRTOS

    使用ARM Keil 的 Keil uVision IDE xff0c 在 STM32上运行 FreeRTOS 内核 物料清单 软件 在创建新项目之前 xff0c 我们必须安装软件包 下面是打印屏幕 xff0c 其中包含如何执行此操作的步骤
  • ESP32实践FreeRTOS

    将部分代码作为应用程序中的任务独立执行可以简化大型复杂问题的设计 当有多个 CPU 时 xff0c 任务支持还允许选定的功能并行运行 本文将调查 Arduino 框架对 ESP32 系列设备的 FreeRTOS 任务支持 除了少数例外 xf
  • 黑马程序员—5—Java基础:多态学习笔记和学习心得体会

    lt ahref 61 34 http www itheima com 34 target 61 34 blank 34 gt android 培训 lt a gt lt ahref 61 34 http www itheima com 3
  • 图像去噪算法简介

    一 xff0c 背景 随着各种数字仪器和数码产品的普及 xff0c 图像和视频已成为人类活动中最常用的信息载体 xff0c 它们包含着物体的大量信息 xff0c 成为人们获取外界原始信息的主要途径 然而在图像的获取 传输和存贮过程中常常会受
  • Android 7 Nougat 源码目录结构

    code style margin 0px auto font family none padding 0px color inherit background color transparent art Android Runtime x
  • 【无人驾驶规划】BOSS无人车规划算法

    无人驾驶规划 BOSS无人车规划算法 1 boss运动规划结构2 轨迹生成2 1 状态约束2 2 车辆模型2 3 控制参数化2 4 初始化轨迹2 5 轨迹优化 3 on road模式规划3 1 路径生成3 2 轨迹生成3 3 轨迹速度配置3
  • 这也太全面了 阿里王牌级“Docker全线笔记”,Github已标星80k+,我太爱

    写在开头 司汤达说过 xff1a 一个人只要强烈地坚持不懈地追求 xff0c 他就能达到目的 Docker的创始人Solomon Hykes就是以这样的精神 xff0c 在docker即将坚持不下去的时候 xff0c 选择的不是放弃 xff
  • 如何在keil5中新建.c和.h文件?

    有两种方法 xff1a 方法1 在keil5内部添加两个文件分别为 c和 h文件 xff0c 可以保存在一个新建的文件夹里 xff08 前提是此文件夹是在keil5内部保存时新建的文件夹 xff0c 而不是在keil5软件外自己新建的文件夹
  • CMake(十二):构建类型

    本章和下一章涉及两个密切相关的主题 构建类型 在某些IDE工具中也称为构建配置或构建方案 是一种高级控件 xff0c 它选择不同的编译器和链接器行为集 构建类型的操作是本章的主题 xff0c 而下一章将介绍控制编译器和链接器选项的更具体细节
  • CMake:构建、链接静态库和动态库

    CMake 构建 链接静态库和动态库 导言一 多目录多文件CMake构建方式1 项目结构2 message h3 message cpp4 hello world cpp5 CMakeLists txt6 构建及编译 二 静态库和动态库简介
  • msckf_mono构建运行方法

    背景 博主是在读Davide Scaramuzza投稿到ICRA 2018的VIO综述文章 A Benchmark Comparison of Monocular Visual Odometry Algorithms for Flying
  • IMU相关技术资料整理

    关于IMU噪声参数 xff1a IMU噪声参数模型的参考文档 xff1a https github com ethz asl kalibr wiki IMU Noise Model针对消费级IMU器件的噪声参数进行适度的不确定性放大 xff
  • Shell中空格引起的血案

    最近开始写点shell脚本 xff0c 对linux命令还是比较熟悉的 xff0c 但是shell脚本却没写过 xff0c 没想 xff0c 刚开始写 xff0c 就郁闷重重 各种语法错误 xff01 xff01 xff01 最简单的自定义
  • OpenCV-Python视频分析(移动物体检测,物体追踪)

    1 概述 该文章介绍OpenCV Python中关于视频分析的两个主要内容 xff0c 分别为 xff1a x1f41f 背景差分法移动物体检测 x1f41f Meanshift和Camshift算法物体追踪 PS xff1a 视频分析还要
  • 最新2014欢聚时代(YY)软件研发笔试题

    今天上午刚考完 C C 43 43 题目难度你们感受一下 xff01 总分80 43 60 61 140 题目上的答案请忽略
  • python 计算经纬度之间的距离

    def get distance lon1 lat1 lon2 lat2 lon1 lat1 lon2 lat2 61 map radians lon1 lat1 lon2 lat2 radians 角度转弧度 d lon 61 lon2
  • python多线程爬虫教学,清晰易懂。

    首先需要知道什么是多线程 xff0c 多线程的作用 首先举个例子 xff0c 并发和并行 xff1a 并发 xff1a 并发 xff0c 在操作系统中 xff0c 是指一个时间段中有几个程序都处于已启动运行到运行完毕之间 xff0c 且这几