数据库系统概论——第九章 关系查询处理和查询优化

2023-10-30

一、关系数据库系统查询处理
1. 查询处理步骤


(1)查询分析的任务:对查询语句进行扫描、词法分析语法分析
词法分析:从查询语句中识别出正确的语言符号
语法分析:进行语法检查
(2)查询检查的任务
1)合法权检查:根据数据字典检查语句中的数据库对象(关系名、属性名等)是否存在和有效
2)视图转换:用视图消除法把对视图的操作转换成对基本表的操作
3)安全性检查:根据数据字典中的用户权限对用户的存取权限进行检查
4)完整性初步检查:根据数据字典中的完整性约束进行检查。

检查通过后把SQL查询语句转换成内部表示(即等价的关系代数表达式)。
SQL——>关系代数
在关系系统中一般用查询树(语法分析树)来表示扩展的关系代数表达式
(3)查询优化
选择一个高效执行的查询处理策略

查询优化的选择依据:
①基于规则
②基于代价
③基于语义
(4)查询执行

通过优化器——>得到——>执行策略——>生成——>查询执行计划——>通过代码生成器——>生成——>查询执行计划的代码
两种执行方式:①自顶向下②自底向上

2. 实现查询操作的算法实例
(1)选择操作的实现
1)全表扫描方法
对查询的基本表顺序扫描,逐一检查每个元组是否满足选择条件,把满足条件的元组作为结果输出
2)索引扫描方法
适合于选择条件中的属性上有索引(例如B+树索引或Hash索引) ,通过索引先找到满足条件的元组主码或元组指针,再通过元组指针直接在查询的基本表中找到元组。
(2)连接操作的实现
1)嵌套循环算法
2)排序-合并算法
3)索引连接(index join)算法
4)Hash Join算法

例如:

SELECT * 
FROM    Student, SC 		      
WHERE Student.Sno=SC.Sno; 

1)嵌套循环算法
①对外层循环(Student表)的每一个元组(s),检索内层循环(SC表)中的每一个元组(sc)
②检查这两个元组在连接属性(Sno)上是否相等
③如果满足连接条件,则串接后作为结果输出,直到外层循环表中的元组处理完为止。
2)排序-合并算法
①如果连接的表没有排好序,先对Student表和SC表按连接属性Sno排序
②取Student表中第一个Sno,依次扫描SC表中具有相同Sno的元组
③当扫描到Sno不相同的第一个SC元组时,返回Student表扫描它的下一个元组,再扫描SC表中具有相同Sno的元组,把它们连接起来
④重复上述步骤直到Student 表扫描完

注释:
Student表和SC表都只要扫描一遍
如果两个表原来无序,执行时间要加上对两个表的排序时间
对于大表,先排序后使用排序-合并连接算法执行连接,总的时间一般仍会减少
3)索引连接(index join)算法
① 在SC表上已经建立属性Sno的索引。
② 对Student中每一个元组,由Sno值通过SC的索引查找相应的SC元组。
③ 把这些SC元组和Student元组连接起来
循环执行②③,直到Student表中的元组处理完为止
4)Hash Join算法
①划分阶段(building phase, 也称为partitioning phase)
对包含较少元组的表(如Student表)进行一遍处理,把它的元组按hash函数分散到hash表的桶中
②试探阶段(probing phase,也称为连接阶段join phase)
对另一个表(SC表)进行一遍处理
把SC表的元组也按同一个hash函数(hash码是连接属性)进行散列,把SC元组与桶中来自Student表并与之相匹配的元组连接起来。
上面hash join算法前提:假设两个表中较小的表在第一阶段后可以完全放入内存的hash桶中

二、关系数据库系统的查询优化

1. 查询优化概述
(1)关系系统的查询优化
是关系数据库管理系统实现的关键技术又是关系系统的优点所在,减轻了用户选择存取路径的负担
(2)非关系系统
用户使用过程化的语言表达查询要求,执行何种记录级的操作,以及操作的序列是由用户来决定的
用户必须了解存取路径,系统要提供用户选择存取路径的手段,查询效率由用户的存取策略决定
如果用户做了不当的选择,系统是无法对此加以改进的
(3)查询优化的优点
①用户不必考虑如何最好地表达查询以获得较好的效率
②系统可以比用户程序的“优化”做得更好
(4)关系数据库管理系统通过某种代价模型计算出各种查询执行策略的执行代价,然后选取代价最小的执行方案
1)集中式数据库

执行开销
磁盘存取块数(I/O代价)最重要
处理机时间(CPU代价)
查询的内存开销

2)分布式数据库

执行开销
磁盘存取块数(I/O代价)
处理机时间(CPU代价)
查询的内存开销
通信代价

(5)

查询优化的总目标
选择有效的策略
求得给定关系表达式的值
使得查询代价最小(实际上是较小)

2. 一个实例

SELECT  Student.Sname
FROM    Student, SC
WHERE   Student.Sno=SC.Sno AND SC.Cno=2//假定学生-课程数据库中有1000个学生记录,10000个选课记录选修2号课程的选课记录为50个 
可以用多种等价的关系代数表达式来完成这一查询
在这里插入图片描述
在这里插入图片描述

(1)第一种情况

①计算广义笛卡尔积
算法
1)在内存中尽可能多地装入某个表(如Student表)的若干块,留出一块存放另一个表(如SC表)的元组。
2)把SC中的每个元组和Student中每个元组连接,连接后的元组装满一块后就写到中间文件上
3)从SC中读入一块和内存中的Student元组连接,直到SC表处理完。
4)再读入若干块Student元组,读入一块SC元组
5)重复上述处理过程,直到把Student表处理完
设一个块能装10个Student元组或100个SC元组,在内存中存放5块Student元组和1块SC元组,则读取总块数为 :1000/10+1000/(10*5)*10000/100=2100块
连接后的元组数为103×104=107。设每块能装10个元组,则写出106 块。
②作选择操作
1)依次读入连接后的元组,按照选择条件选取满足要求的记录
2)假定内存处理时间忽略。读取中间文件花费的时间(同写中间文件一样)需读入106块。
3)若满足条件的元组假设仅50个,均可放在内存。
③ 作投影操作
把第②步的结果在Sname上作投影输出,得到最终结果
第一种情况下执行查询的总读写数据块=2100+106 +106

(2)第二种情况
在这里插入图片描述
①计算自然连接
1)执行自然连接,读取Student和SC表的策略不变,总的读取块数仍为2100块
2)自然连接的结果比第一种情况大大减少,为104个元组
3)写出数据块= 103
②读取中间文件块,执行选择运算,读取的数据块= 103
③把第2步结果投影输出。
第二种情况下执行查询的总读写数据块=2100+ 103 +103
其执行代价大约是第一种情况的488分之一

(3)第三种情况

①先对SC表作选择运算,只需读一遍SC表,存取100块,因为满足条件的元组仅50个,不必使用中间文件。
②读取Student表,把读入的Student元组和内存中的SC元组作连接。也只需读一遍Student表共100块。
③把连接结果投影输出

第三种情况总的读写数据块=100+100
其执行代价大约是第一种情况的万分之一,是第二种情况的20分之一

假如SC表的Cno字段上有索引
第一步就不必读取所有的SC元组而只需读取Cno=‘2’的那些元组(50个)
存取的索引块和SC中满足条件的数据块大约总共3~4块
若Student表在Sno上也有索引
不必读取所有的Student元组
因为满足条件的SC记录仅50个,涉及最多50个Student记录
读取Student表的块数也可大大减少

把代数表达式Q1变换为Q2、 Q3

在这里插入图片描述
在这里插入图片描述
![
](https://img-
blog.csdnimg.cn/20200131123224849.png)

有选择和连接操作时,先做选择操作,这样参加连接的元组就可以大大减少,这是代数优化
在Q3中
1)SC表的选择操作算法有全表扫描或索引扫描,经过初步估算,索引扫描方法较优。
2)对于Student和SC表的连接,利用Student表上的索引,采用索引连接代价也较小,这就是物理优化

三、 代数优化

1. 关系代数表达式等价变换规则
代数优化策略:通过对关系代数表达式的等价变换来提高查询效率
关系代数表达式的等价:指用相同的关系代替两个表达式中相应的关系所得到的结果是相同的
两个关系表达式E1和E2是等价的,可记为E1≡E2
(1)常用的等价变换规则






它使部分选择在笛卡尔积前先做




2. 查询树的启发式优化
启发式规则
(1)选择运算应尽可能先做
在优化策略中这是最重要、最基本的一条。
(2)把投影运算和选择运算同时进行
如有若干投影和选择运算,并且它们都对同一个关系操作,则可以在扫描此关系的同时完成所有的这些运算以避免重复扫描关系。
(3) 把投影同其前或其后的双目运算结合起来,没有必要为了去掉某些字段而扫描一遍关系。
(4) 把某些选择同在它前面要执行的笛卡尔积结合起来成为一个连接运算,连接特别是等值连接运算要比同样关系上的笛卡尔积省很多时间。
(5)找出公共子表达式
●如果这种重复出现的子表达式的结果不是很大的关系
●并且从外存中读入这个关系比计算该子表达式的时间少得多
●则先计算一次公共子表达式并把结果写入中间文件是合算的。
●当查询的是视图时,定义视图的表达式就是公共子表达式的情况
算法:关系表达式的优化
输入:一个关系表达式的查询树
输出:优化的查询树

方法:







例题

SELECT  Student.Sname
FROM    Student, SC
WHERE   Student.Sno=SC.Sno AND SC.Cno=2

第一步:把SQL语句转换成查询树,如下图所示

为了使用关系代数表达式的优化法,假设内部表示是关
系代数语法树,则上面的查询树如图所示。

第二步:对查询树进行优化
利用规则4、6把选择σSC.Cno=‘2’移到叶端,查询树便转换成下图优化的查询树。

四、物理优化

代数优化改变查询语句中操作的次序和组合,不涉及底层的存取路径
对于一个查询语句有许多存取方案,它们的执行效率不同, 仅仅进行代数优化是不够的

物理优化就是要选择高效合理的操作算法存取路径,求得优化的查询计划

物理优化方法 解释
基于规则的启发式优化 启发式规则是指那些在大多数情况下都适用,但不是在每种情况下都是适用的规则
基于代价估算的优化 优化器估算不同执行策略的代价,并选出具有最小代价的执行计划
两者结合的优化方法 常常先使用启发式规则,选取若干较优的候选方案,减少代价估算的工作量,然后分别计算这些候选方案的执行代价,较快地选出最终的优化方案

1. 基于启发式规则的存取路径选择优化
(1)选择操作的启发式规则
对于小关系,使用全表顺序扫描,即使选择列上有索引
对于大关系,启发式规则有:
1)对于选择条件是“主码=值”的查询
查询结果最多是一个元组,可以选择主码索引
一般的关系数据库管理系统会自动建立主码索引
2)对于选择条件是“非主属性=值”的查询,并且选择列上有索引
要估算查询结果的元组数目
如果比例较小(<10%)可以使用索引扫描方法
否则还是使用全表顺序扫描
3)对于选择条件是属性上的非等值查询或者范围查询,并且选择列上有索引
同2)方法
4)对于用AND连接的合取选择条件
①如果有涉及这些属性的组合索引
优先采用组合索引扫描方法
②如果某些属性上有一般的索引,可以用索引扫描方法
通过分别查找满足每个条件的指针,求指针的交集
通过索引查找满足部分条件的元组,然后在扫描这些元组时判断是否满足剩余条件
③其他情况:使用全表顺序扫描
5)对于用OR连接的析取选择条件,一般使用全表顺序扫描
(2)连接操作的启发式规则
1)如果2个表都已经按照连接属性排序
选用排序-合并算法
2)如果一个表在连接属性上有索引
选用索引连接算法
3)如果上面2个规则都不适用,其中一个表较小
选用Hash join算法
4)可以选用嵌套循环方法,并选择其中较小的表,确切地讲是占用的块数(b)较少的表,作为外表(外循环的表)
2. 基于代价的优化

启发式规则优化 基于代价的优化
适合解释执行的系统 适合编译执行的系统
解释执行的系统:优化开销包含在查询总开销之中 编译执行的系统:查询优化和查询执行是分开的

(1)统计信息
基于代价的优化方法要计算查询的各种不同执行方案的执行代价,它与数据库的状态密切相关
优化器需要的统计信息
1)对每个基本表
该表的元组总数(N)
元组长度(l)
占用的块数(B)
占用的溢出块数(BO)
2)对基表的每个列
该列不同值的个数(m)
列最大值
最小值
列上是否已经建立了索引
哪种索引(B+树索引、Hash索引、聚集索引)
可以计算选择率(f)
如果不同值的分布是均匀的,f=1/m
如果不同值的分布不均匀,则要计算每个值的选择率,f=具有该值的元组数/N
3)对索引
索引的层数(L)
不同索引值的个数
索引的选择基数S(有S个元组具有某个索引值)
索引的叶结点数(Y)
(2)代价估算示例
1)全表扫描算法的代价估算公式
如果基本表大小为B块,全表扫描算法的代价 cost=B
如果选择条件是“码=值”,那么平均搜索代价 cost=B/2
2)索引扫描算法的代价估算公式
①如果选择条件是“码=值”
则采用该表的主索引
若为B+树,层数为L,需要存取B+树中从根结点到叶结点L块,再加上基本表中该元组所在的那一块,所以cost=L+1
②如果选择条件涉及非码属性
若为B+树索引,选择条件是相等比较,S是索引的选择基数(有S个元组满足条件)
满足条件的元组可能会保存在不同的块上,所以(最坏的情况)cost=L+S
③如果比较条件是>,>=,<,<=操作
假设有一半的元组满足条件
就要存取一半的叶结点
通过索引访问一半的表存储块
cost=L+Y/2+B/2
如果可以获得更准确的选择基数,可以进一步修正Y/2与B/2
3)嵌套循环连接算法的代价估算公式
嵌套循环连接算法的代价
cost=Br+BrBs/(K-1)
如果需要把连接结果写回磁盘
cost=Br+Br Bs/(K-1)+(FrsNrNs)/Mrs
其中Frs为连接选择性(join selectivity),表示连接结果元组数的比例
Mrs是存放连接结果的块因子,表示每块中可以存放的结果元组数目
4)排序-合并连接算法的代价估算公式
如果连接表已经按照连接属性排好序,则
cost=Br+Bs+(FrsNrNs)/Mrs
如果必须对文件排序
还需要在代价函数中加上排序的代价
对于包含B个块的文件排序的代价大约是
(2B)+(2B*log2B)
(3)优化方法

六、小结
查询处理是关系数据库管理系统的核心,查询优化技术是查询处理的关键技术
在这里插入图片描述

代数优化 物理优化
启发式代数优化 基于规则的存取路径优化、基于代价的优化
查询执行
自顶向下执行方式
自底向上执行方式

比较复杂的查询,尤其是涉及连接和嵌套的查询
不要把优化的任务全部放在关系数据库管理系统上
应该找出关系数据库管理系统的优化规律,以写出适合关系数据库管理系统自动优化的SQL语句

对于关系数据库管理系统不能优化的查询需要重写查询语句,进行手工调整以优化性能

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据库系统概论——第九章 关系查询处理和查询优化 的相关文章

  • wsl 固定ip 方法 一劳永逸

    目前网上有很多办法 有用host 有修改bash的 非常多 也非常麻烦 目前发现这种方法最为简单 添加一个开机启动项 配置一个netsh 1 准备一个vbs 并添加到开机启动项 Set ws WScript CreateObject WSc

随机推荐

  • 更改内存频率导致电脑用不了怎么解决?

    目录 台式机 解决办法 笔记本 解决办法 电脑能开机 显示器指示灯闪烁但就是不亮显示器 主要问题是内存 内存超频不能超过本身内存卡的极限 至于内存卡的极限在哪里 你可以上网查一下你的内存卡的信息 超过了极限基本上一改电脑就跟死机差不多 运行
  • 2022国赛17:打印服务

    大赛试题内容 七 打印服务 任务描述 为了提高打印服务效率 节省成本 请采用共享打印服 务 实现共享打印的安全性 1 在 windows4 上安装打印机 驱动程序为 MS Publisher Color Printer 名称和共享名称均为
  • 排序算法(6)----计数排序

    不知道为什么 突然编辑器不支持颜色丰富的intellij IDEA直接复制了 博主有点沮丧 因此我先用图片的形式展示并分析 然后在最后会将全部代码呈上 排序思想 在一个数组中 对于每一个数据 都统计有多少个数字小于它 就能反应出它当前所在的
  • Centos 7开机菜单设置

    Centos 7的开机菜单设置主要是能过 etc grub2 cfg etc grub2 cfg gt boot grub2 grub cfg timeout 5 为等待用户选择时间 当5秒钟没有选择 系统会启动默认的菜单 与centos
  • 基于阿里云服务器+wordpress构建自己的网站(全过程系列,无需任何编程知识)

    1 阿里云服务器配置 既然是基于阿里云服务器 那么当然是先得申请一个阿里云服务器 本博客使用的服务器是云服务器ECS 共享计算型 n4系列 阿里云对新用户有很多优惠活动 这个是我当时花了69块钱买了一年 又通过某个渠道 返了60块钱 相当于
  • 数学建模美赛E、F题备考策略(自用,大部分复制粘贴)

    这里要讲一下故事的背景 我们小组三个人都是大一大二的学生 我的队友们都是数学专业的学生 所以比赛中的编程部分就交给了我这样的工业工程系的选手 我们在看完了历年赛题后一直认为 前面的几题我们都很难建立出很棒的模型 因此我们将目光对准E F两题
  • 为什么 Redis 中的事物很玄学,没人使用 ?

    1 为什么不使用 Redis 中的事物 Redis 中的事物是 弱事物 它在操作的时候 是将多个命令全部加入到事物队列中 然后通过 exec 命令一次性执行所有命令 这样做的好处是可以减少网络往返的次数 提高效率 它的使用示例如下 Redi
  • 输入英文有空格 解决方法

    shift 空格 直接搞定
  • Uniform convergence

    In the mathematical field of analysis uniform convergence is a mode of convergence of functions stronger than pointwise
  • vue3 + elementplus 教程

    一 初始化 安装 vue cli g 全局安装 vue cli npm install vue cli g 或者 yarn global add vue cli 二 创建项目 vue create 项目名 进行项目初始化 D workspa
  • C# JSON 常用方法 - Json字符串转对象

    创建项目 ConsoleApplication Json 选择项目右键管理NuGet程序包 搜索Newtonsoft Json 并下载安装 选择项目添加 JsonHelper cs 添加引用 using Newtonsoft Json 编写
  • [893]推荐几款提高体验与效率的Chrome插件神器

    今天推荐几款好用的 Chrome 插件 都是我自己一直在用的插件 可以到 Chrome 商店下载 话不多说 进入主题 Insight io For Github 如图 就像这样 可以以文件树的方式浏览 github 的代码文件 Toggle
  • 【注册机】JCreator Pro v4.50.010 注册机

    下载地址 http oyksoft oyksoft com oyksoft com JCreator Pro v4 50 010 Keygen Only HAZE rar
  • OpenCV均值、中值滤波器的讲解及实战应用(附Python源码)

    需要源码和图片请点赞关注收藏后评论区留言私信 在尽量保留原图像信息的情况下 去除图像内噪声 降低细节层次信息等一系列过程 叫作图像的平滑处理 或图像的模糊处理 实现平滑处理最常用的工具就是滤波器 通过调节滤波器的参数 可以控制图像的平滑程度
  • Java通过两点经纬度和范围距离计算范围四个顶点的经纬度

    参考博文 https blog csdn net zengmingen article details 68490497 private static final double mile 1609 344 米 英里换算 通过起点 终点的经纬
  • SQL数据库:数据查询

    数据查询 语句格式 SELECT子句 指定要显示的属性列 FROM子句 指定查询对象 基本表或视图 WHERE子句 指定查询条件 GROUP BY子句 对查询结果按指定序列的值分组 比如说男的一组 女的一组 该属性列值相等的元祖为一个组 通
  • python读入2个正整数a和b_C/C++知识点之C语言解题:读入两个小于100的正整数A和B,计算A+B...

    本文主要向大家介绍了C C 知识点之C语言解题 读入两个小于100的正整数A和B 计算A B 通过具体的内容向大家展示 希望对大家学习C C 知识点有所帮助 题目描述 读入两个小于100的正整数A和B 计算A B 需要注意的是 A和B的每一
  • STC15单片机实战项目 - 项目需求

    以经典的51内核单片机设计一款产品 功能如下 1 采用宏晶的STC15L2K32S2 LQFP32 2k SRAM 32k ROM 目的 选用STC15系列1T的经典51内核单片机 资源丰富 2 设计1个运行指示灯 工作时 间隔1s闪烁 目
  • 人工智能及其在工业领域的三大应用

    人工智能是一门新的技术学科 研究和开发用于模拟人类智慧扩充套件和扩充套件的理论 方法 技术和应用系统 人工智能研究的目标 是让机器执行一些需要智慧人类完成的复杂任务 也就是说 我们希望这台机器能取代我们 解决一些复杂的任务 不仅是重复的机械
  • 数据库系统概论——第九章 关系查询处理和查询优化

    一 关系数据库系统查询处理 1 查询处理步骤 1 查询分析的任务 对查询语句进行扫描 词法分析和语法分析 词法分析 从查询语句中识别出正确的语言符号 语法分析 进行语法检查 2 查询检查的任务 1 合法权检查 根据数据字典检查语句中的数据库