MySQL实战解析底层---普通索引和唯一索引,应该怎么选择

2023-05-16

目录

前言

查询过程

更新过程

change buffer 的使用场景

索引选择和实践

change buffer 和 redo log


  • 前言

  • 在不同的业务场景下,应该选择普通索引,还是唯一索引?
  • 假设你在维护一个市民系统,每个人都有一个唯一的身份证号,而且业务代码已经保证了不会写入两个重复的身份证号
  • 如果市民系统需要按照身份证号查姓名,就会执行类似这样的SQL 语句:

  • 所以,你一定会考虑在 id_card 字段上建索引
  • 由于身份证号字段比较大,不建议你把身份证号当做主键,那么现在你有两个选择
  • 要么给 id_card 字段创建唯一索引,要么创建一个普通索引
  • 如果业务代码已经保证了不会写入重复的身份证号,那么这两个选择逻辑上都是正确的
  • 现在要问你的是,从性能的角度考虑,你选择唯一索引还是普通索引呢?
  • 选择的依据是什么呢?
  • 简单起见,还是用第 4 篇文章深入浅出索引中的例子来说明,假设字段 k 上的值都不重复

  • 接下来就从这两种索引对查询语句和更新语句的性能影响来进行分析
  • 查询过程

  • 假设,执行查询的语句是 select id from T where k=5
  • 这个查询语句在索引树上查找的过程,先是通过 B+ 树从树根开始,按层搜索到叶子节点,也就是图中右下角的这个数据页,然后可以认为数据页内部通过二分法来定位记录
  • 对于普通索引来说,查找到满足条件的第一个记录 (5,500) 后,需要查找下一个记录,直到碰到第一个不满足 k=5 条件的记录
  • 对于唯一索引来说,由于索引定义了唯一性,查找到第一个满足条件的记录后,就会停止继续检索
  • 那么,这个不同带来的性能差距会有多少呢?答案是,微乎其微
  • InnoDB 的数据是按数据页为单位来读写的
  • 也就是说,当需要读一条记录的时候,并不是将这个记录本身从磁盘读出来,而是以页为单位,将其整体读入内存
  • 在 InnoDB中,每个数据页的大小默认是 16KB
  • 因为引擎是按页读写的,所以说,当找到 k=5 的记录的时候,它所在的数据页就都在内存里了
  • 那么,对于普通索引来说,要多做的那一次“查找和判断下一条记录”的操作,就只需要一次指针寻找和一次计算
  • 当然,如果 k=5 这个记录刚好是这个数据页的最后一个记录,那么要取下一个记录,必须读取下一个数据页,这个操作会稍微复杂一些
  • 但是之前计算过,对于整型字段,一个数据页可以放近千个 key,因此出现这种情况的概率会很低
  • 所以计算平均性能差异时,仍可以认为这个操作成本对于现在的 CPU 来说可以忽略不计
  • 更新过程

  • 为了说明普通索引和唯一索引对更新语句性能的影响这个问题,需要先跟你介绍一下change buffer
  • 当需要更新一个数据页时,如果数据页在内存中就直接更新
  • 而如果这个数据页还没有在内存中的话,在不影响数据一致性的前提下,InnoDB 会将这些更新操作缓存在 change buffer中,这样就不需要从磁盘中读入这个数据页了
  • 在下次查询需要访问这个数据页的时候,将数据页读入内存,然后执行 change buffer 中与这个页有关的操作
  • 通过这种方式就能保证这个数据逻辑的正确性
  • 需要说明的是,虽然名字叫作 change buffer,实际上它是可以持久化的数据
  • 也就是说,change buffer 在内存中有拷贝,也会被写入到磁盘上
  • 将 change buffer 中的操作应用到原数据页,得到最新结果的过程称为 merge
  • 除了访问这个数据页会触发 merge 外,系统有后台线程会定期merge
  • 在数据库正常关闭(shutdown)的过程中,也会执行 merge 操作
  • 显然,如果能够将更新操作先记录在 change buffer,减少读磁盘,语句的执行速度会得到明显的提升
  • 而且,数据读入内存是需要占用 buffer pool 的,所以这种方式还能够避免占用内存,提高内存利用率
  • 那么,什么条件下可以使用 change buffer 呢?
  • 对于唯一索引来说,所有的更新操作都要先判断这个操作是否违反唯一性约束
  • 比如,要插入(4,400) 这个记录,就要先判断现在表中是否已经存在 k=4 的记录,而这必须要将数据页读入内存才能判断
  • 如果都已经读入到内存了,那直接更新内存会更快,就没必要使用 change buffer 了
  • 因此,唯一索引的更新就不能使用 change buffer,实际上也只有普通索引可以使用
  • change buffer 用的是 buffer pool 里的内存,因此不能无限增大
  • change buffer 的大小,可以通过参数 innodb_change_buffer_max_size 来动态设置
  • 这个参数设置为 50 的时候,表示 change buffer 的大小最多只能占用 buffer pool 的 50%
  • 现在已经理解了 change buffer 的机制,那么再一起来看看如果要在这张表中插入一个新记录 (4,400) 的话,InnoDB 的处理流程是怎样的
  • 第一种情况是,这个记录要更新的目标页在内存中 ;这时,InnoDB 的处理流程如下:
    • 对于唯一索引来说,找到 3 和 5 之间的位置,判断到没有冲突,插入这个值,语句执行结束;
    • 对于普通索引来说,找到 3 和 5 之间的位置,插入这个值,语句执行结束
  • 这样看来,普通索引和唯一索引对更新语句性能影响的差别,只是一个判断,只会耗费微小的CPU 时间
  • 但这不是关注的重点
  • 第二种情况是,这个记录要更新的目标页不在内存中;这时,InnoDB 的处理流程如下:
    • 对于唯一索引来说,需要将数据页读入内存,判断到没有冲突,插入这个值,语句执行结束
    • 对于普通索引来说,则是将更新记录在 change buffer,语句执行就结束了
  • 将数据从磁盘读入内存涉及随机 IO 的访问,是数据库里面成本最高的操作之一
  • change buffer 因为减少了随机磁盘访问,所以对更新性能的提升是会很明显的
  • 例子,有个 DBA,他负责的某个业务的库内存命中率突然从 99% 降低到了 75%,整个系统处于阻塞状态,更新语句全部堵住
  • 而探究其原因后,发现这个业务有大量插入数据的操作,而他在前一天把其中的某个普通索引改成了唯一索引
  • change buffer 的使用场景

  • 通过上面的分析,你已经清楚了使用 change buffer 对更新过程的加速作用,也清楚了 change buffer 只限于用在普通索引的场景下,而不适用于唯一索引
  • 那么,现在有一个问题
  • 就是:普通索引的所有场景,使用 change buffer 都可以起到加速作用吗?
  • 因为 merge 的时候是真正进行数据更新的时刻,而 change buffer 的主要目的就是将记录的变更动作缓存下来,所以在一个数据页做 merge 之前,change buffer 记录的变更越多(也就是这个页面上要更新的次数越多),收益就越大
  • 因此,对于写多读少的业务来说,页面在写完以后马上被访问到的概率比较小,此时 change buffer 的使用效果最好
  • 这种业务模型常见的就是账单类、日志类的系统
  • 反过来,假设一个业务的更新模式是写入之后马上会做查询,那么即使满足了条件,将更新先记录在 change buffer,但之后由于马上要访问这个数据页,会立即触发 merge 过程
  • 这样随机访问 IO 的次数不会减少,反而增加了 change buffer 的维护代价
  • 所以,对于这种业务模式来说,change buffer 反而起到了副作用
  • 索引选择和实践

  • 回到文章开头的问题,普通索引和唯一索引应该怎么选择
  • 其实,这两类索引在查询能力上是没差别的,主要考虑的是对更新性能的影响
  • 所以,建议你尽量选择普通索引
  • 如果所有的更新后面,都马上伴随着对这个记录的查询,那么你应该关闭 change buffer
  • 而在其他情况下,change buffer 都能提升更新性能
  • 在实际使用中,你会发现,普通索引和 change buffer 的配合使用,对于数据量大的表的更新优化还是很明显的
  • 特别地,在使用机械硬盘时,change buffer 这个机制的收效是非常显著的
  • 所以,当你有一个类似“历史数据”的库,并且出于成本考虑用的是机械硬盘时,那你应该特别关注这些表里的索引,尽量使用普通索引,然后把 change buffer 尽量开大,以确保这个“历史数据”表的数据写入速度
  • change buffer 和 redo log

  • 理解了 change buffer 的原理,你可能会联想到在前面文章中介绍过的 redo log 和WAL
  • WAL 提升性能的核心机制,也的确是尽量减少随机读写,这两个概念确实容易混淆
  • 所以,这里把它们放到了同一个流程里来说明,便于你区分这两个概念
  • 这里可以再回顾下第 2 篇文章《日志系统:一条 SQL 更新语句是如何执行的?》中的相关内容
  • 现在要在表上执行这个插入语句:

  • 这里假设当前 k 索引树的状态,查找到位置后,k1 所在的数据页在内存 (InnoDB buffer pool) 中,k2 所在的数据页不在内存中
  • 如图 2 所示是带 change buffer 的更新状态图

  • 分析这条更新语句,会发现它涉及了四个部分:
    • 内存
    • redo log(ib_log_fileX)
    • 数据表空间(t.ibd)
    • 系统表空间(ibdata1)
  • 这条更新语句做了如下的操作(按照图中的数字顺序):
    • 1.Page 1 在内存中,直接更新内存;
    • 2.Page 2 没有在内存中,就在内存的 change buffer 区域,记录下“我要往 Page 2 插入一行”这个信息
    • 3.将上述两个动作记入 redo log 中(图中 3 和 4)
  • 做完上面这些,事务就可以完成了
  • 所以,你会看到,执行这条更新语句的成本很低,就是写了两处内存,然后写了一处磁盘(两次操作合在一起写了一次磁盘),而且还是顺序写的
  • 同时,图中的两个虚线箭头,是后台操作,不影响更新的响应时间
  • 那在这之后的读请求,要怎么处理呢?
  • 比如现在要执行 select * from t where k in (k1, k2)
  • 这里画了这两个读请求的流程图
  • 如果读语句发生在更新语句后不久,内存中的数据都还在,那么此时的这两个读操作就与系统表空间(ibdata1)和 redo log(ib_log_fileX)无关了
  • 所以在图中就没画出这两部分

  • 从图中可以看到:
  • (1)读 Page 1 的时候,直接从内存返回
  • WAL 之后如果读数据,是不是一定要读盘,是不是一定要从 redo log 里面把数据更新以后才可以返回?
  • 其实是不用的
  • 可以看一下图 3 的这个状态,虽然磁盘上还是之前的数据,但是这里直接从内存返回结果,结果是正确的
  • (2)要读 Page 2 的时候,需要把 Page 2 从磁盘读入内存中,然后应用 change buffer 里面的操作日志,生成一个正确的版本并返回结果
  • 可以看到,直到需要读 Page 2 的时候,这个数据页才会被读入内存
  • 所以,如果要简单地对比这两个机制在提升更新性能上的收益的话
  • redo log 主要节省的是随机写磁盘的 IO 消耗(转成顺序写)
  • 而 change buffer 主要节省的则是随机读磁盘的 IO消耗
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

MySQL实战解析底层---普通索引和唯一索引,应该怎么选择 的相关文章

  • Redis的Java客户端

    1 快速入门 Jedis使用的基本步骤 xff1a 1 引入依赖 2 创建Jedis对象 xff0c 建立连接 3 使用Jedis xff0c 方法名与Redis命令一致 4 释放资源 lt jedis依赖 gt lt dependency
  • linux下使用rpm安装mysql

    1 get mysql rpm package mysql rpm install https www aliyundrive com s 6xUyXcdqYJF 点击链接保存 xff0c 或者复制本段内容 xff0c 打开 阿里云盘 AP
  • python爬取豆瓣T250电影及保存excel(易上手)

    网址 xff1a 豆瓣电影 Top 250 目录 一 bs4和re正则爬取 二 xpath爬取 一 bs4和re正则爬取 源代码 xff1a import urllib request urllib error import re from
  • qt发布的程序时如何将依赖的dll分开放在不同目录

    SetDllDirectory设定DLL加载路径 include 34 Windows h 34 切换工作目录 xff0c 到指定目录查找依赖的dll文件 QString s 61 34 debug 34 LPCWSTR path 61 s
  • Android项目目录结构和资源管理

    项目目录结构和资源管理 项目目录结构默认结构形式真正的结构形式app包里结构src包里的目录 资源的管理和使用图片资源布局资源字符串资源样式颜色资源 项目目录结构 默认结构形式 新建的项目会默认使用Android模式的项目结构 xff0c
  • jupyter notebook无法打开(或无法用终端打开)

    报错如下 xff1a 解决方法 xff1a 添加这三个环境变量 注 xff1a 这三个路径虽然短 xff0c 但是一定要复制粘贴进去 xff0c 手写很容易报错 xff0c 即使你路径手写是对的 其他问题解决方法 xff1a xff08 1
  • Spring Aop通知注解的执行顺序

    spring4和spring5有所不同 spring4没异常有异常执行顺序从上往下 64 Around通知前 64 Aroud通知前 64 Before通知 64 Before通知业务代码 64 After通知 64 Around通知后 6
  • vcruntime140_1.dll无法继续执行代码如何修复?

    vcruntime140 1 dll是电脑系统动态链接中非常重要的文件 xff0c 主要用于处理各种程序 每台计算机上都有相当多的DLL文件 xff0c 不同的程序会使用不同的DLL文件 电脑系统如果丢失dll文件 xff0c 会导致很多软
  • Linux基础指令的基本操作(一)

    文章目录 Linux用户管理 xff1a 1 adduser添加用户2 passwd修改用户密码3 userdel删除用户 其他指令alias指令 取别名 whoami指令man指令 重要 bc指令unamefreedf h Linux 访
  • Linux 权限(二)权限掩码 粘滞位 详细

    文章目录 Linux权限的概念Linux权限管理01 文件访问者的分类 xff08 人 xff09 02 文件类型和访问权限 xff08 事物属性 xff09 拥有者 xff0c 所属组 xff0c other vs root 和普通用户a
  • Linux——基础IO

    文章目录 先来段代码回顾C文件接口写文件读文件输出信息到显示器 xff0c 你有哪些方法 默认打开的三个流 stdin amp stdout amp stderr系统接口openclosewriteread文件描述符fd文件描述符的分配规则
  • boost字符串库简单使用

    boost字符串库简单使用 说明用法大小写转换字符串分割去掉字符串两边空格替换字符串 replace first replace first copy 说明 写c 43 43 程序的时候 xff0c 虽然std string有数百余函数 x
  • 线程安全下单例模式

    文章目录 什么是单例模式单例模式的特点定义对象的本质什么时候创建对象饿汉实现方式和懒汉实现方式饿汉方式实现单例模式懒汉方式实现单例模式懒汉方式实现单例模式 线程安全版本 什么是单例模式 单例模式是一种 经典的 常用的 常考的 设计模式 单例
  • Linux 线程池

    文章目录 线程池的定义使用线程池的原因基于POSIX实现的线程池基于block队列的线程池实现基于ring队列的线程池实现 设计单例模式线程池 线程池的定义 线程池就一堆已经创建好的任务线程 xff0c 初始它们都处于空闲等待状态 xff0
  • 魔都,3年,程序员到CTO

    过一个平凡无趣的人生实在太容易了 xff0c 你可以不读书 xff0c 不冒险 xff0c 不运动 xff0c 不写作 xff0c 不外出 xff0c 不折腾 但是 xff0c 人生最后悔的事情就是 xff1a 我本可以 陈素封 我可以 在
  • TCP协议

    文章目录 1 保证可靠性机制1 1 确认应答机制1 1 1确认应答机制概念1 1 2常规确认应答的工作方式1 1 3报文按序到达1 1 4 如何确认历史数据被收到1 1 5 16位序号和16确认序号 xff08 字段讲解 xff09 tcp
  • 1 对数器,二分查找,

    文章目录 对数器二分查找 1 有序序列二分查找 2 在一个有序数组中 xff0c 找 lt 61 某个数最右侧的位置 3 在一个有序数组中 xff0c 找 gt 61 某个数最左侧的位置 4 无序序列二分查找 xff0c 求局部最小值 对数
  • 2 异或位运算大厂必刷题

    文章目录 如何不用额外变量交换两个数一个数组中有一种数出现了奇数次 xff0c 其他数都出现了偶数次 xff0c 怎么找到并打印这种数怎么把一个int类型的数 xff0c 提取出最右侧的1来怎么把一个int类型的数 获取位数为1的数量一个数
  • 链表,栈,队列,递归行为,哈希表,有序表

    文章目录 链表1 单链表 双链表的反转2 删除链表中指定的值 队列1 数组循环队列的实现2 双向链表实现双端队列 栈1 用数组实现栈 栈和队列的面试题1 实现最小栈2 两个栈实现一个队列3 两个队列实现一个栈4 用栈实现图的广度优先遍历5
  • 搭建Zabbix6.0版本

    Zabbix简介 Zabbix是一个企业级的开源分布式监控解决方案 xff0c 由C语言编写而成的底层架构 xff08 server端和agent端 xff09 xff0c 由一个国外的团队持续维护更新 xff0c 软件可以自由下载使用 x

随机推荐