跳表

2023-10-31

跳表

前言
一、什么是跳表？
二、跳表的时间复杂度
三、跳表的空间复杂度
四、高效的动态插入和删除
- 1、插入操作
- 2、删除操作
五、跳表退化与跳表索引的动态更新

前言

对于二分查找算法，其底层依赖支持随机查找特性的数组，一般情况下只能依靠数组来实现。但是，如果数据存储在链表中，是否可以实现二分查找算法呢？

为此，需要引入一种新型的动态数据结构，跳表（Skip List）。跳表可以支持快速的插入、删除和查找操作，甚至可以替代红黑树。

一、什么是跳表？

对于一个单链表，即使其中存储的数据是有序的，如果我们想要查找特定的值，也只能从头到尾进行遍历，时间复杂度为O(n)。
在这里插入图片描述
为了提高查找效率，我们可以使用额外的链表来建立查找索引，每两个结点提取一个结点到上一级，把抽取出来的一级称作索引或索引层。索引层中的每一个结点有一个down指针，该指针指向其下一级结点。
在这里插入图片描述
这样，如果我们要查找特定的值，例如16，便可以首先对第一级索引层进行遍历，当查找到值为13的结点时，发现其下一个结点的值为17，因为数据是有序存储的，那么16肯定在这两个结点之间。此时，只需要通过13结点的down指针转移到原始链表的13结点处，再对原始链表的13到17结点之间的元素进行查找即可很快找到值为16的结点。

在上述查找过程中，利用第一级索引层，从原先需要遍历10个结点降低为只需要遍历7个结点，跳过了中间的多个结点，查找效率大幅度提高。

在第一级索引的基础上，还可以继续增加第二级索引，对于第一级索引中的值，每两个结点创建一个结点，如下图所示。

在这里插入图片描述
这样，如果要查找值为16的结点，就只需要遍历6个结点。

在上述例子中，由于原始结点数目不多，查找效率的提升不明显。但是，当原始结点的数目很大时，查找效率就会得到明显提升。

二、跳表的时间复杂度

在单链表中查询某个数据的时间复杂度为O(n)。那么，跳表的查询时间复杂度是多少？

假设链表中有n个结点，按照每两个结点抽取一个结点作为上一级索引的结点，那么第一级索引有n/2个结点，第二级索引有n/4个结点，即：第k级索引的结点个数是第k-1级索引的结点个数的1/2，第k级索引结点的个数为 n / ( 2 k ) n/(2^{^{k}}) n/(2k)。

假设索引有h级，最高级的索引有两个结点，那么 n / ( 2 h ) = 2 n/(2^{^{h}})=2 n/(2h)=2，求得 h = l o g 2 n − 1 h=log{_{2}}^{n}-1 h=log2n−1，加上原始链表，整个跳表的高度为 l o g 2 n log{_{2}}^{n} log2n。假设，在跳表中查询某个数据时，每一层都需要遍历m个结点，那么在跳表中查询一个数据的时间复杂度为 O ( m ∗ l o g n ) ) O(m*log{_{}}^{n})) O(m∗logn))。

如果使用上述的跳表结构，那么在每一级遍历时，最多只需要遍历3个结点。原因在于，当我们从当前级跳转到下一级索引时，当前级的两个结点之间最多只存在3个结点，那么每级最多也只需要遍历3个结点。
在这里插入图片描述
因此，在跳表中查询任意数据的时间复杂度就是 O ( l o g n ) ) O(log{_{}}^{n})) O(logn))。查找的时间复杂度和二分查找相同。

三、跳表的空间复杂度

跳表的空间复杂度如下所示：

在这里插入图片描述
上述等比数列的和为n-2，那么空间复杂度为O(n)。也就是说，为包含n个结点的单链表构建多级索引构成跳表，需要额外使用接近n个结点的存储空间。

如果每三个结点或这五个结点抽取一个结点构成上级索引，如下图所示：

在这里插入图片描述
空间复杂度的计算方式如下图所示：

在这里插入图片描述
和为n/2，空间复杂度同样是O(n)，但是相比于间隔为2，减少了一般的索引结点存储空间。

在实际工程中，单链表中的每一结点所存储的对象可能很大，此时，在构建索引结点时，只需要存储关键值和指针，不需要存储对象，因而当对象比索引结点大很多时，索引结点所占用的额外空间可以忽略不计。

四、高效的动态插入和删除

1、插入操作

跳表除了支持查找操作之外还支持动态的插入、删除操作，插入、删除操作的时间复杂度也是 O ( l o g n ) ) O(log{_{}}^{n})) O(logn))。
在单链表中，如果要找到特定的位置并执行插入操作，查找操作比较耗时，而插入的时间复杂度为 O ( 1 ) O(1) O(1)。而对于跳表来说，查找某个特定的插入位置的时间复杂度为 O ( l o g n ) ) O(log{_{}}^{n})) O(logn))，找到插入位置后，插入操作的时间复杂度同样为 O ( 1 ) O(1) O(1)。如下图所示：
在这里插入图片描述

2、删除操作

在进行删除操作时，我们需要考虑的一点时，所删除的结点可能会在索引中出现，此时要同时删除索引中的对应结点。在进行删除操作时，要注意获取被删除结点的前驱结点。

五、跳表退化与跳表索引的动态更新

如下图所示，假如一直往原始列表中添加数据，但是不更新索引，就可能出现两个索引节点之间数据非常多的情况，极端情况，跳表退化为单链表，从而使得查找效率从 O(logn) 退化为 O(n)。那这种问题该怎么解决呢？我们需要在插入数据的时候，索引节点也需要相应的增加、或者重建索引，来避免查找效率的退化。那我们该如何去维护这个索引呢？
在这里插入图片描述
比较容易理解的做法就是完全重建索引，我们每次插入数据后，都把这个跳表的索引删掉全部重建，重建索引的时间复杂度是多少呢？因为索引的空间复杂度是 O(n)，即：索引节点的个数是 O(n) 级别，每次完全重新建一个 O(n) 级别的索引，时间复杂度也是 O(n) 。造成的后果是：为了维护索引，导致每次插入数据的时间复杂度变成了 O(n)。

那有没有其他效率比较高的方式来维护索引呢？假如跳表每一层的晋升概率是 1/2，最理想的索引就是在原始链表中每隔一个元素抽取一个元素做为一级索引。换种说法，我们在原始链表中随机的选 n/2 个元素做为一级索引是不是也能通过索引提高查找的效率呢？当然可以了，因为一般随机选的元素相对来说都是比较均匀的。如下图所示，随机选择了n/2 个元素做为一级索引，虽然不是每隔一个元素抽取一个，但是对于查找效率来讲，影响不大，比如我们想找元素 16，仍然可以通过一级索引，使得遍历路径较少了将近一半。如果抽取的一级索引的元素恰好是前一半的元素 1、3、4、5、7、8，那么查找效率确实没有提升，但是这样的概率太小了。我们可以认为：当原始链表中元素数量足够大，且抽取足够随机的话，我们得到的索引是均匀的。我们要清楚设计良好的数据结构都是为了应对大数据量的场景，如果原始链表只有 5 个元素，那么依次遍历 5 个元素也没有关系，因为数据量太少了。所以，我们可以维护一个这样的索引：随机选 n/2 个元素做为一级索引、随机选 n/4 个元素做为二级索引、随机选 n/8 个元素做为三级索引，依次类推，一直到最顶层索引。这里每层索引的元素个数已经确定，且每层索引元素选取的足够随机，所以可以通过索引来提升跳表的查找效率。

那代码该如何实现，才能使跳表满足上述这个样子呢？可以在每次新插入元素的时候，尽量让该元素有 1/2 的几率建立一级索引、1/4 的几率建立二级索引、1/8 的几率建立三级索引，以此类推，就能满足我们上面的条件。现在我们就需要一个概率算法帮我们把控这个 1/2、1/4、1/8 … ，当每次有数据要插入时，先通过概率算法告诉我们这个元素需要插入到几级索引中，然后开始维护索引并把数据插入到原始链表中。下面开始讲解这个概率算法代码如何实现。

我们可以实现一个 randomLevel() 方法，该方法会随机生成 1~MAX_LEVEL 之间的数（MAX_LEVEL表示索引的最高层数），且该方法有 1/2 的概率返回 1、1/4 的概率返回 2、1/8的概率返回 3，以此类推。

randomLevel() 方法返回 1 表示当前插入的该元素不需要建索引，只需要存储数据到原始链表即可（概率 1/2）
randomLevel() 方法返回 2 表示当前插入的该元素需要建一级索引（概率 1/4）
randomLevel() 方法返回 3 表示当前插入的该元素需要建二级索引（概率 1/8）
randomLevel() 方法返回 4 表示当前插入的该元素需要建三级索引（概率 1/16）
……

所以，通过 randomLevel() 方法，我们可以控制整个跳表各级索引中元素的个数。重点来了：randomLevel() 方法返回 2 的时候会建立一级索引，我们想要一级索引中元素个数占原始数据的 1/2，但是 randomLevel() 方法返回 2 的概率为 1/4，那是不是有矛盾呢？明明说好的 1/2，结果一级索引元素个数怎么变成了原始链表的 1/4？我们先看下图，应该就明白了。

假设我们在插入元素 6 的时候，randomLevel() 方法返回 1，则我们不会为 6 建立索引。插入 7 的时候，randomLevel() 方法返回3 ，所以我们需要为元素 7 建立二级索引。这里我们发现了一个特点：当建立二级索引的时候，同时也会建立一级索引；当建立三级索引时，同时也会建立一级、二级索引。所以，一级索引中元素的个数等于 [ 原始链表元素个数 ] * [ randomLevel() 方法返回值 > 1 的概率 ]。因为 randomLevel() 方法返回值 > 1就会建索引，凡是建索引，无论几级索引必然有一级索引，所以一级索引中元素个数占原始数据个数的比率为 randomLevel() 方法返回值 > 1 的概率。那 randomLevel() 方法返回值 > 1 的概率是多少呢？因为 randomLevel() 方法随机生成 1~MAX_LEVEL 的数字，且 randomLevel() 方法返回值 1 的概率为 1/2，则 randomLevel() 方法返回值 > 1 的概率为 1 - 1/2 = 1/2。即通过上述流程实现了一级索引中元素个数占原始数据个数的 1/2。

同理，当 randomLevel() 方法返回值 > 2 时，会建立二级或二级以上索引，都会在二级索引中增加元素，因此二级索引中元素个数占原始数据的比率为 randomLevel() 方法返回值 > 2 的概率。 randomLevel() 方法返回值 > 2 的概率为 1 减去 randomLevel() = 1 或 =2 的概率，即 1 - 1/2 - 1/4 = 1/4。OK，达到了我们设计的目标：二级索引中元素个数占原始数据的 1/4。

但是问题又来了，怎么设计这么一个 randomLevel() 方法呢？直接撸代码：

// 该 randomLevel 方法会随机生成 1~MAX_LEVEL 之间的数，且 ：
//        1/2 的概率返回 1
//        1/4 的概率返回 2
//        1/8 的概率返回 3 以此类推
private int randomLevel() {
  int level = 1;
  // 当 level < MAX_LEVEL，且随机数小于设定的晋升概率时，level   1
  while (Math.random() < SKIPLIST_P && level < MAX_LEVEL)
    level += 1;
  return level;
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

跳表的相关文章

新一代树莓派 Raspberry Pi 2 性能测试之软件无线电追踪飞机信息

新一代树莓派 Raspberry Pi 2 性能测试之软件无线电追踪飞机信息转载自zza1003169 2015年02月28日于开源杂志发表安装开源软件无线电 GNU Radio 用电视棒追踪飞机轨迹众所周知树莓派 Raspb
Discuz!教程之当插件、门户或自定义页面设置成首页时手机版访问跳转到forum.php?mobile=yes的问题

最近由于项目需要将自定义单页设置为网站首页测试过程中一直发现手机版无法访问被强制跳转到了forum php mobile yes页面仔细查看了一下Discuz 代码 source class discuz discuz applic
免费python课程排行榜-重庆Python培训机构排行榜

重庆千锋python全栈开发培训 0基础教学带你玩转python开发 30天直追年薪20万快速咨询 Python是一种非常强大的计算机语言你可能已经听说过很多种流行编程语言比如非常难学的C语言非常流行的Java语言适合初学者的B
Apollo如何通知/订阅主题topic

转自 https blog csdn net u012423865 article details 80024870 How to advertise and subscribe a topic 导读众所周知 Apollo是基于ROS开发
Qt5下串口对高频率自发性数据的接收及处理方法

在项目中需要用Qt5 9采集仪表中的数据仪表是以200Hz的频率主动向外连续发送数据发送频率很高而且主动发送不需要软件发送一次再读取一次而是软件直接读取这种直接连续读取有两个关键点 1 如何从接收buffer里面查找出所需的
React：refs转发和useImperativeHandle

具体的使用范例可以参考官方API Refs转发本人也是看了官方API以后自己所学习理解领悟的给记录一下如果有不正确的地方可以在文章下方的评论区参与评论然后指正出来欢迎各位来评论吧 refs是用来绑定元素的一定要注意 React
Excel导出级联下拉功能实现

效果如下直接上代码自己看工具类 import cn hutool core util ObjectUtil import com alibaba fastjson JSONObject import lombok extern slf
Django vue 搭建前后端分离的web 二

bootstrap的安装和使用安装在vue项目下使用npm直接安装即可由于bootstrap依赖jQuery 所以第一步安装jQuery npm install jquery 检查在package json的dependencies中
【FPGA实现SPI发送】——详解Verilog代码实现

FPGA实现SPI发送详解Verilog代码实现在FPGA开发中 SPI Serial Peripheral Interface 通信协议是常用的一种它可以实现单片机与外围设备的连接与数据传输本文将详细讲解如何通过Verilog代码
IGBT基本工作原理及IGBT的作用是什么?

IGBT由栅极 G 发射 E 和集电极 C 三个极控制如图1 IGBT的开关作用是通过加正向栅极电压形成沟道给PNP晶体管提供基极电流使IGBT导通反之加反向门极电压消除沟道切断基极电使IGBT关断由图2可知若在IGBT的
SQL语言编程学习系列（一）——数据库及表的创建与管理

本系列同样是记录代码为主附带实验内容与要求可参考代码 SQL编码习惯为小写且习惯性换行实验的环境和软件为Microsoft SQLServer 2019 实验内容 1 创建教务管理数据库 jwgl 其数据文件和日志文件分别为jwgl
conv、deconv、fractional-strided conv

fractional strided conv 反卷积有时候也被叫做Fractionally Strided Convolution 翻译过来大概意思就是小数步长的卷积对于步长 s gt 1的卷积我们可能会想到其对应的反卷积步长 s l
React 子组件调用父组件函数时传递参数遇到的问题

子组件TodoListUI js中render函数返回的渲染页面代码包含的LIst组件 index是循环的下标
dhcp协议_DHCP服务器设置

DHCP服务器动态主机配置协议是一个局域网的网络协议指的是由服务器控制一段IP地址范围客户机登录服务器时就可以自动获得服务器分配的IP地址和子网掩码首先 DHCP服务器必须是一台安装有Windows 2000 Server Adva
在导入maven项目时出现maven-compiler-plugin:2.3.2:compile插件的错误

在导入项目时提示报错 No marketplace entries found to handle maven compiler plugin 2 3 2 compile in Eclipse Please see Help for mor
Java注解的学习和自定义一个简单的注解

学习Java注解的使用一 Java注解的含义 Java注解 Annotations 是Java 5之后引入的特性用于为Java代码提供元数据这些元数据本身不直接影响代码的逻辑功能但可以被编译器开发工具或框架用于生成代码执行测试
android面试-垃圾回收算法（久邦涉及到）

推荐参考深入理解Java虚拟机书籍垃圾回收算法包括四种标记清除标记整理复制分代回收算法 1 标记清除这是一种最基础的收集算法 Mark Sweep 分为标记清除两个阶段标记阶段先标记出所有需要回收的对象在标记完成后统一
学习笔记二.矩阵按键

学习笔记二 GPIO的探索与矩阵按键 1 在配置cubemx时对gpio的配置有开漏输出和推挽输出两种方式这里有一篇文章别人的文章讲的很详细link戳这里跳转通俗来讲推挽输出可以输出高电平也可以输出低电平而开漏输出输出低
JS实现发邮件功能

a href 给我发邮件 a 给我发邮件
Linux-IO Target（LIO SCSI Target）介绍(二)

使用targetcli创建loop Target和vhost Target 除了常见的SAN Target之外 Linux IO Target还支持两种特殊的Target loop和vhost 其中loop Target可以为本机模拟一个完

随机推荐

社区Task挑战赛开启，阶梯式任务等你来战

FISCO BCOS开源已近5年一路行来数万名开发者数千家企业机构数百位社区贡献者汇聚于此践行开源共创精神协力打造开放多元的开源联盟链生态在大家的共建下 FISCO BCOS生态不断丰富完善涌现了众多开发工具让FISCO
Vue3 - defineComponent解决了什么？

defineComponent函数只是对setup函数进行封装返回options的对象 export function defineComponent options unknown return isFunction options
Java——GUI——鼠标事件监听——简易画板

代码演示 package Gui import java awt import java awt event MouseAdapter import java awt event MouseEvent import java util Ar
Visio 画流程图入门

1 下载 Visio 2013 下载还是比较简单的在此就不载详细讲解贴一个链接给大家点击这里 2 新建文件打开Visio会有如下界面新建文件的方法有两种首先来介绍一下第一种类别选择 gt 模板选择第二种就是我们熟悉的文件
嵌入式linux驱动之路13：裸机开发之SPI 实验

SPI简介 SPI 以主从方式工作通常是有一个主设备和一个或多个从设备一般 SPI 需要4 根线 CS SS Slave Select Chip Select 这个是片选信号线用于选择需要进行通信的从设备 I2C 主机是通过发送从机设
粒子群算法(PSO)优化混合核极限学习机(HKELM)分类预测，多特征输入模型，PSO-HKELM分类预测。多特征输入单输出的二分类及多分类模型。程序内注释详细，直接替换数据就可以用。程序语言

清空环境变量 clc clear warning off close all 读取数据 res xlsread 数据集 xlsx 分析数据 num class length unique res end 类别数 Excel最后一列放类别 n
FFmpeg快速入门

一 FFMpeg 1 FFMPEG简介 1 MPEG FFMPEG 全称Fast Forward MPEG MPEG系列标准是由ISO IEC制定的主要应用于视频存储 DVD 广播电视因特网或无线网上的流媒体 ITU T与ISO IEC
2.4 Git 基础 - 撤消操作

2 4 Git 基础撤消操作版本说明版本作者日期备注 0 1 loon 2019 3 21 初稿目录文章目录 2 4 Git 基础撤消操作版本说明目录撤消操作 1 取消暂存的文件 2 撤消对文件的修改撤消操作在任
5类6类7类网线对比_网络水晶头超5类、6类、超6类是什么意思？如何区别？

有人看到网络水晶头的时候会问这个影不影响网速用这个网速速率会不会消减看到网上卖的5类超5类 6类超6类甚至有7类8类的水晶头它们之间有什么区别吗如何辨别呢其实这种用类别进行的分类主要是衡量网线和配套接插件比如网络水晶头
数据结构（五）：堆

文章目录前言一堆二顺序存储三堆的实现 1 建堆 2 向堆中插入数据 3 删除堆顶的数据 4 其他对堆的操作四堆排序感谢阅读如有错误请批评指正前言在数据结构四二叉树中树是通过链式结构来实现的在本文中堆将通过
怎么制作睡袋rust_创造与魔法让小伙伴复活的睡袋制作材料和其放置的位置图解...

创造与魔法让小伙伴复活的睡袋制作材料和其放置的位置图解睡袋是这个游戏中非常重要的一个物品能让小伙伴复活很多小伙伴都想获得这个一起来看看创造与魔法让小伙伴复活的睡袋制作材料和其放置的位置吧创造与魔法睡袋做法介绍当角色死亡时可直接复
频响特性曲线_扬声器XVI：何为频响曲线？

频响曲线分解频指频率在声音表现中同音调响则可以看作是扬声器系统机械和电特性对输入电信号中频转换成声能的响应而这种响应由麦克风接收并经测试仪器运算后以dB SPL对数值的形式呈现出来当很多个频的响应值连在一起
拉格朗日插值法——matlab代码实现

公式 function y lagrange x0 y0 x 给定一系列点x0 y0 x是我们要预测的值由于可以有多个因此用向量表示 y返回我们的估计值由于可以有多个因此用向量表示 n length x 要预测的个数 y zeros
python的raw input不识别_python中使用raw input失败的原因

这两个均是 python 的内建函数通过读取控制台的输入与用户实现交互但他们的功能不尽相同举两个小例子 1 输入为纯数字时 input返回的是数值类型如int float raw inpout返回的是字符串类型 string类型 u
印象笔记不能同步显示服务器端出现,印象笔记同步失败，服务器端出现问题...

印象笔记同步失败服务器端出现问题0 Log opened on 2013 12 05 09 47 01 UTC 8 00 09 47 01 4848 Command line C Program Files x86 Evernote Ev
1、大家都是怎么看网工的，就这么看不起网络工程师吗？

这个话题其实一直存在之前有个朋友在苏宁总部当机房运维跟他聊天的时候提到了对职业满意度的看法他跟我说其实他真心的为他这份工作而骄傲大部分人认为网工就是敲命令我真的很想说命令是这一行最不重要的路由和生成树都是作为必须要会的这都
详细的数据可视化库之Seaborn教程(一)——relplot：关系图（可视化统计量间的关系）

文章目录 seaborn 一可视化统计量间的关系 relationship sns relplot 一散点图 relplot kind scatter 参数hue hue hue order hue palette 参数style hu
BES平台耳机开发笔记

有好长一段时间没有在CSDN平台发文章接下来我将BES平台开发耳机部分做的一些小笔记与大家分享这里包括了BES2000系列 BES2300系列 BES2500系列就不一一例举了平时做下的笔记比较多很难全部上传我挑选一些比较关键的与
关于频率综合器

完整版请参考 https mazhaoxin github io 2018 08 12 About Frequency Synthesizer http 483v7j coding pages com 2018 08 12 About Fr
跳表

跳表前言一什么是跳表二跳表的时间复杂度三跳表的空间复杂度四高效的动态插入和删除 1 插入操作 2 删除操作五跳表退化与跳表索引的动态更新前言对于二分查找算法其底层依赖支持随机查找特性的数组一般情况下只能依靠数组

跳表

跳表

前言