一张900w的数据表，16s执行的SQL优化到300ms？

2023-11-10

大家好，我是磊哥。

有一张财务流水表，未分库分表，目前的数据量为9555695，分页查询使用到了limit，优化之前的查询耗时16 s 938 ms (execution: 16 s 831 ms, fetching: 107 ms)，按照下文的方式调整SQL后，耗时347 ms (execution: 163 ms, fetching: 184 ms)；

操作：查询条件放到子查询中，子查询只查主键ID，然后使用子查询中确定的主键关联查询其他的属性字段；

原理：减少回表操作；

-- 优化前SQL
SELECT  各种字段
FROM `table_name`
WHERE 各种条件
LIMIT 0,10;

-- 优化后SQL
SELECT  各种字段
FROM `table_name` main_tale
RIGHT JOIN 
(
SELECT  子查询只查主键
FROM `table_name`
WHERE 各种条件
LIMIT 0,10;
) temp_table ON temp_table.主键 = main_table.主键

注意

文末有：7701页互联网大厂面试题

一，前言

首先说明一下MySQL的版本：

mysql> select version();
+-----------+
| version() |
+-----------+
| 5.7.17    |
+-----------+
1 row in set (0.00 sec)

表结构：

mysql> desc test;
+--------+---------------------+------+-----+---------+----------------+
| Field  | Type                | Null | Key | Default | Extra          |
+--------+---------------------+------+-----+---------+----------------+
| id     | bigint(20) unsigned | NO   | PRI | NULL    | auto_increment |
| val    | int(10) unsigned    | NO   | MUL | 0       |                |
| source | int(10) unsigned    | NO   |     | 0       |                |
+--------+---------------------+------+-----+---------+----------------+
3 rows in set (0.00 sec)

id为自增主键，val为非唯一索引。

灌入大量数据，共500万：

mysql> select count(*) from test;
+----------+
| count(*) |
+----------+
|  5242882 |
+----------+
1 row in set (4.25 sec)

我们知道，当limit offset rows中的offset很大时，会出现效率问题：

mysql> select * from test where val=4 limit 300000,5;
+---------+-----+--------+
| id      | val | source |
+---------+-----+--------+
| 3327622 |   4 |      4 |
| 3327632 |   4 |      4 |
| 3327642 |   4 |      4 |
| 3327652 |   4 |      4 |
| 3327662 |   4 |      4 |
+---------+-----+--------+
5 rows in set (15.98 sec)

为了达到相同的目的，我们一般会改写成如下语句：

mysql> select * from test a inner join (select id from test where val=4 limit 300000,5) b on a.id=b.id;
+---------+-----+--------+---------+
| id      | val | source | id      |
+---------+-----+--------+---------+
| 3327622 |   4 |      4 | 3327622 |
| 3327632 |   4 |      4 | 3327632 |
| 3327642 |   4 |      4 | 3327642 |
| 3327652 |   4 |      4 | 3327652 |
| 3327662 |   4 |      4 | 3327662 |
+---------+-----+--------+---------+
5 rows in set (0.38 sec)

时间相差很明显。

为什么会出现上面的结果？我们看一下select * from test where val=4 limit 300000,5;的查询过程：

查询到索引叶子节点数据。

根据叶子节点上的主键值去聚簇索引上查询需要的全部字段值。

类似于下面这张图：

像上面这样，需要查询300005次索引节点，查询300005次聚簇索引的数据，最后再将结果过滤掉前300000条，取出最后5条。MySQL耗费了大量随机I/O在查询聚簇索引的数据上，而有300000次随机I/O查询到的数据是不会出现在结果集当中的。

肯定会有人问：既然一开始是利用索引的，为什么不先沿着索引叶子节点查询到最后需要的5个节点，然后再去聚簇索引中查询实际数据。这样只需要5次随机I/O，类似于下面图片的过程：

其实我也想问这个问题。

证实

下面我们实际操作一下来证实上述的推论：

为了证实select * from test where val=4 limit 300000,5是扫描300005个索引节点和300005个聚簇索引上的数据节点，我们需要知道MySQL有没有办法统计在一个sql中通过索引节点查询数据节点的次数。我先试了Handler_read_*系列，很遗憾没有一个变量能满足条件。

我只能通过间接的方式来证实：

InnoDB中有buffer pool。里面存有最近访问过的数据页，包括数据页和索引页。所以我们需要运行两个sql，来比较buffer pool中的数据页的数量。预测结果是运行select * from test a inner join (select id from test where val=4 limit 300000,5); 之后，buffer pool中的数据页的数量远远少于select * from test where val=4 limit 300000,5;对应的数量，因为前一个sql只访问5次数据页，而后一个sql访问300005次数据页。

select * from test where val=4 limit 300000,5

mysql> select index_name,count(*) from 
information_schema.INNODB_BUFFER_PAGE where 
INDEX_NAME in('val','primary') and TABLE_NAME like '%test%' 
group by index_name;Empty set (0.04 sec)

可以看出，目前buffer pool中没有关于test表的数据页。

mysql> select * from test where val=4 limit 300000,5;
+---------+-----+--------+
| id      | val | source |
+---------+-----+--------+| 
3327622 |   4 |      4 |
| 3327632 |   4 |      4 |
| 3327642 |   4 |      4 |
| 3327652 |   4 |      4 |
| 3327662 |   4 |      4 |
+---------+-----+--------+
5 rows in set (26.19 sec)

mysql> select index_name,count(*) from information_schema.INNODB_BUFFER_PAGE where INDEX_NAME in('val','primary') and TABLE_NAME like '%test%' group by index_name;
+------------+----------+
| index_name | count(*) |
+------------+----------+
| PRIMARY    |     4098 |
| val        |      208 |
+------------+----------+2 rows in set (0.04 sec)

可以看出，此时buffer pool中关于test表有4098个数据页，208个索引页。

select * from test a inner join (select id from test where val=4 limit 300000,5) ;为了防止上次试验的影响，我们需要清空buffer pool，重启mysql。

mysqladmin shutdown
/usr/local/bin/mysqld_safe &

mysql> select index_name,count(*) from information_schema.INNODB_BUFFER_PAGE where INDEX_NAME in('val','primary') and TABLE_NAME like '%test%' group by index_name;

Empty set (0.03 sec)

运行sql：

mysql> select * from test a inner join (select id from test where val=4 limit 300000,5) b on a.id=b.id;
+---------+-----+--------+---------+
| id      | val | source | id      |
+---------+-----+--------+---------+
| 3327622 |   4 |      4 | 3327622 |
| 3327632 |   4 |      4 | 3327632 |
| 3327642 |   4 |      4 | 3327642 |
| 3327652 |   4 |      4 | 3327652 |
| 3327662 |   4 |      4 | 3327662 |
+---------+-----+--------+---------+
5 rows in set (0.09 sec)

mysql> select index_name,count(*) from information_schema.INNODB_BUFFER_PAGE where INDEX_NAME in('val','primary') and TABLE_NAME like '%test%' group by index_name;
+------------+----------+
| index_name | count(*) |
+------------+----------+
| PRIMARY    |        5 |
| val        |      390 |
+------------+----------+
2 rows in set (0.03 sec)

我们可以看明显的看出两者的差别：第一个sql加载了4098个数据页到buffer pool，而第二个sql只加载了5个数据页到buffer pool。符合我们的预测。也证实了为什么第一个sql会慢：读取大量的无用数据行（300000），最后却抛弃掉。

而且这会造成一个问题：加载了很多热点不是很高的数据页到buffer pool，会造成buffer pool的污染，占用buffer pool的空间。遇到的问题

为了在每次重启时确保清空buffer pool，我们需要关闭innodb_buffer_pool_dump_at_shutdown和innodb_buffer_pool_load_at_startup，这两个选项能够控制数据库关闭时dump出buffer pool中的数据和在数据库开启时载入在磁盘上备份buffer pool的数据。

近期技术热文

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

一张900w的数据表，16s执行的SQL优化到300ms？的相关文章

Java 集合的并集或交集

建立并集或交集的最简单方法是什么Set在 Java 中我见过这个简单问题的一些奇怪的解决方案例如手动迭代这两个集合最简单的单行解决方案是这样的 set1 addAll set2 Union set1 retainAll set2 In
检测并缩短字符串中的所有网址

假设我有一条字符串消息您应该将 file zip 上传到http google com extremelylonglink zip http google com extremelylonglink zip not https stack
循环预定义值

有没有办法在 oracle 中执行 for every 如下所示 begin for VAR in 1 2 5 loop dbms output put line The value VAR end loop end 我知道你可以这样做 b
如何使用 SQL Server 2008 将行复制到同一个表中

A 到目前为止我的方式 sqlCommand CommandText INSERT Table1 column1 column2 column3 SELECT column1 column2 column3 FROM Table1 WHER
jdbc mysql loginTimeout 不起作用

有人可以解释一下为什么下面的程序在 3 秒后超时因为我将其设置为在 3 秒后超时 12秒我特意关闭了mysql服务器来测试mysql服务器无法访问的这种场景 import java sql Connection import java
Hibernate 的 PersistentSet 不使用 hashCode/equals 的自定义实现

所以我有一本实体书 public class Book private String id private String name private String description private Image coverImage pr
像 Java 这样的静态类型语言中动态方法解析背后的原因是什么

我对 Java 中引用变量的动态静态类型和动态方法解析的概念有点困惑考虑 public class Types Override public boolean equals Object obj System out println i
通过触发器应用表的列权限

现在我有一个名为 Members 的表其中包含内容分为联系人数据银行数据现在管理员应该能够创建更新删除用户这些用户保存在另一个表中该表只能访问管理员用户应该获得自己的 mysql 用户帐户管理员还应该能够设置权限例
java for windows 中的文件图标叠加

我正在尝试像 Tortoise SVN 或 Dropbox 一样在文件和文件夹上实现图标叠加我在网上查了很多资料但没有找到Java的解决方案 Can anyone help me with this 很抱歉确认您的担忧但这无法在 Ja
关键字“table”附近的语法不正确，无法提取结果集

我使用 SQL Server 创建了一个项目其中包含以下文件 UserDAO java public class UserDAO private static SessionFactory sessionFactory static se
java.io.Serialized 在 C/C++ 中的等价物是什么？

C C 的等价物是什么java io Serialized https docs oracle com javase 7 docs api java io Serializable html 有对序列化库的引用用 C 序列化数据结构 ht
如何使用 jUnit 将测试用例添加到套件中？

我有 2 个测试类都扩展了TestCase 每个类都包含一堆针对我的程序运行的单独测试如何将这两个类以及它们拥有的所有测试作为同一套件的一部分执行我正在使用 jUnit 4 8 在 jUnit4 中你有这样的东西 RunWith
干净构建 Java 命令行

我正在使用命令行编译使用 eclipse 编写的项目如下所示 javac file java 然后运行 java file args here 我将如何运行干净的构建或编译每当我重新编译时除非删除所有内容否则更改不会受到影响 cla
内部 while 循环不工作

这是我项目网页上的代码片段这里我想显示用户选择的类别然后想显示属于该类别的主题在那里用户可以拥有多个类别这没有问题我可以在第一个 while 循环中打印所有这些类别问题是当我尝试打印主题时结果只显示一行但每个类别中有更多主
在java中为组合框分配键

我想添加一个JComboBox在 Swing 中这很简单但我想为组合中的每个项目分配值我有以下代码 JComboBox jc1 new JComboBox jc1 addItem a jc1 addItem b jc1 addItem
使用 CXF-RS 组件时，为什么我们使用而不是普通的？

作为后续这个问题 https stackoverflow com questions 20598199 对于如何正确使用CXF RS组件我还是有点困惑我很困惑为什么我们需要
如果没有抽象成员，基类是否应该标记为抽象？

如果一个类没有抽象成员可以将其标记为抽象吗即使没有实际理由直接实例化它除了单元测试是的将不应该实例化的基类显式标记为抽象是合理且有益的即使在没有抽象方法的情况下也是如此它强制执行通用准则来使非叶类抽象它阻止其他程序员创建该类
双枢轴快速排序和快速排序有什么区别？

我以前从未见过双枢轴快速排序是快速排序的升级版吗双枢轴快速排序和快速排序有什么区别我在 Java 文档中找到了这个排序算法是双枢轴快速排序作者弗拉基米尔雅罗斯拉夫斯基乔恩本特利和约书亚布洛赫这个算法在许多数据集上提供
Oracle Data Provider for .NET 不支持 Oracle 19.0.48.0.0

我们刚刚升级到 Oracle 19c 19 3 0 所有应用程序都停止工作并出现以下错误消息 Oracle Data Provider for NET 不支持 Oracle 19 0 48 0 0 我将 Oracle ManagedData
Java中super关键字的范围和使用

为什么无法使用 super 关键字访问父类变量使用以下代码输出为 feline cougar c c class Feline public String type f public Feline System out print fe

随机推荐

五大车载操作（VOS）系统优劣对比，车载系统架构分析-QNX系统性能分析

如果你认为本系列文章对你有所帮助请大家有钱的捧个钱场点击此处赞助赞助额0 1元起步多少随意声明本文只用于个人学习交流若不慎造成侵权请及时联系我立即予以改正锋影 email 174176320 qq com 导读车载操作
UART、TTL和RS232的区别

UART TTL和RS232的区别串行通信 UART TTL RS232 学习硬件的开始接触的就是串口但是一直没搞懂UART TTL和RS232这些的关系总感觉相互之间有所交叉无法完全区分开于是有了这篇博文但是这篇博文自我感觉
分离轴定理（SAT）：凸多边形相交检测

引言在计算机图形学游戏开发碰撞检测等领域凸多边形相交检测是一个常见而重要的问题为了快速准确地判断两个凸多边形是否相交分离轴定理 Separating Axis Theorem 简称 SAT 成为了一种高效而可靠的算法本文将深入
css里各个元素的书写顺序

1 位置相关 position top left index float display 2 大小相关 width height margin padding 3 文字相关 font line height color letter spa
Python 怎么利用Python绘制二元高次隐函数的函数图像及其极值点——以某双核论文模型方程为例

项目场景几日前在研究某双核期刊的某篇论文时发现论文上的函数图像绘制得似乎有些不精确原函数方程为 0 2045 y 2 3 4 y 3 2 x y 2 0 45 2 0 论文原文中函数图像如下图问题描述可以很明显地看出极值点附近
Gof23设计模式之模板方法模式

1 定义定义一个操作中的算法骨架而将算法的一些步骤延迟到子类中使得子类可以不改变该算法结构的情况下重定义该算法的某些特定步骤 2 结构模板方法 Template Method 模式包含以下主要角色抽象类 Abstract Clas
execjs随心所欲运行抠出来的js代码：报错什么都不是问题 execjs._exceptions.ProgramError: ReferenceError: $ is not defined

起因今天扣出一段js想用execjs执行报错未定义也就是说execjs不能执行jquery 决定试试用nodejs来执行 execjs exceptions ProgramError ReferenceError is not de
Windows10 安装 Vue3

一安装Node js 官网下载Node js https nodejs org en download 下载完成后双击 msi文件将默认安装路径按照喜好修改其余的设置默认即可不需要勾选安装的附加选项 node v 二更新Node
lattice

lattice 在实际的语音识别系统中最优路径不一定与实际字序列匹配我们一般希望能够得到得分最靠前的多条候选路径即N best 为了紧凑地保存候选路径我们一般采用lattice 词图来保存识别的候选序列 lattice本质上是一个
Ubuntu18.04上安装RTX 2080Ti显卡驱动

文章目录 1 安装Linux系统 1 1下载Linux镜像文件 1 2 制作系统盘 1 3 安装Linux系统 1 4 配置linux系统 2 安装英伟达显卡驱动 2 1 预备工作 2 2 安装显卡驱动 3 安装cuda 4 安装cudnn
代数余子式的几何意义，点积和叉乘的几何意义

1 点乘的几何意义 a b c d e f ad be cf 结果是一个标量也可以写为 a b a b cos 以下说明点乘的几何意义就是一个向量在另一个单位向量如果另一个向量是单位向量上的投影长度 a b b a cos a b
thinkphp5.1开发app接口版本控制（路由设置）

使用thinkphp5 1开发app接口进行版本控制在index controller下创建v1和v2目录 v1下创建版本1的文件如下图在route route php中如下图 v获取版本例如 v1 v2 下面第一个路由其实是接口
如何为服务网格选择入口网关_如果使用服务网格，是否需要API网关？

如何为服务网格选择入口网关这篇文章可能无法突破API网关和Service Mesh周围的噪音但是这是2020年围绕这些主题仍然存在很多困惑我选择编写此内容是为了帮助带来真正的具体解释以帮助阐明差异重叠之处以及何时使用它们如果
前缀树(字典树)应用——实现 Trie (前缀树)、添加与搜索单词

目录 1 前缀树原理简介 2 实现前缀树 2 1 题目描述 2 2 题目分析 2 3 代码实现 3 添加与搜索单词 3 1 题目描述 3 2 题目分析 3 3 代码实现 4 总结 1 前缀树原理简介先来简单介绍一下前缀树是什么前缀树也叫
python--爬虫爬取html和txt文件

一 python爬取html文件使用python爬取某网站首页并下载html文件下面介绍两种方式一种是urllib 另一种是requests 1 使用urllib import urllib request url http www
（十） web自动化测试-PO设计模式

十 web自动化测试 PO设计模式文章目录十 web自动化测试 PO设计模式前言一 PageObject原则 1 使用方法代替页面的功能点 2 case中不要过多暴露页面的细节 3 po本身不进行断言 4 一个方法返回另一个页面 P
Python运算符中/和//的区别

首先先看单斜杆的用法举几个栗子 gt gt gt print 5 3 type 5 3 1
node-sass npm安装详解

node sass npm安装详解 npm 安装 node sass 依赖时会从 github com 上下载 node 文件由于国内网络环境的问题这个下载时间可能会很长甚至导致超时失败解决方案就是使用其他源或者使用工具下载然
5分钟掌握接口自动化测试，4个知识点简单易学！

一什么是接口测试接口测试是一种软件测试方法用于验证不同软件组件之间的通信接口是否按预期工作在接口测试中测试人员会发送请求并检查接收到的响应以确保接口在不同场景下都能正常工作就工具而言常见的测试工具有Jmeter Postma
一张900w的数据表，16s执行的SQL优化到300ms？

大家好我是磊哥有一张财务流水表未分库分表目前的数据量为9555695 分页查询使用到了limit 优化之前的查询耗时16 s 938 ms execution 16 s 831 ms fetching 107 ms 按照下文的方式调

一张900w的数据表，16s执行的SQL优化到300ms？

一，前言

证实

一张900w的数据表，16s执行的SQL优化到300ms？ 的相关文章

随机推荐

热门标签

一张900w的数据表，16s执行的SQL优化到300ms？的相关文章