MySQL SQL语句是如果被执行的?(1)「终于解决」

MySQL SQL语句是如果被执行的?(1)「终于解决」一个SQL语句被发送到MySQL是如果被执行的? select name,age from user where age > 8 如上一个SQL语句,发送到MySQL服务器之后,会做什么,如何识别上…

MySQL SQL语句是如果被执行的?(1)

语法解析和预处理(Parser & Preprocessor)

假如我们随便执行一个字符串,MySQL服务器会报一个1064的错误:

1064 - You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near "from zhangsan" at line 1, Time: 0.000000s

代码100分

它是怎么知道我输入的内容是错误的?

这个就是MySQL的Parser解析器和Preprocessor预处理模块。

这一步主要做的就是对传过来SQL语句进行词法和语法分析和语义的解析。

任何一个编程语言都会有自己特有的词法、语法定义。

  • 语法,描述程序看起来是什么样的;
  • 语义,描述程序的含义
词法解析

词法分析就是把一个完整的SQL语句打碎成一个个的单词。

比如上边的SQL语句

代码100分select name,age from user where age > 8

它会被打碎成8个符号,每个符号都是什么类型,从哪里开始到哪里结束。

语法解析

第二步就是语法分析,语法分析会对SQL做一些语法检查,比如单引号有没有闭合,然后根据MySQL定义的语法规则,根据SQL语句生成一个数据结构。这个数据结构我们把它叫做解析树(select_lex)。

MySQL SQL语句是如果被执行的?(1)「终于解决」

任何数据库的中间件,比如Mycat,Sharding-JDBC(用到了DruidParser),都必须要有词法和语法分析功能,在市面上也有很多的开源的词法解析的工具(比如LEX,Yacc)。

sql语法优先级
顺序 语法 说明
1 from
2 where 从左往右,自上而下
3 group by
4 having 消耗资源。尽量避免使用。
5 select 少用*号,尽量使用字段名称
6 distinct 少用*号,尽量使用字段名称
7 order by 执行顺序从左到右,消耗资源
8 limit
预处理器

如果我写了一个词法和语法都正确的SQL,但是表名或者字段不存在,会在哪里报错?是在数据库的执行层还是解析器?比如:

select * from user_back;

解析器可以分析语法,但是它怎么知道数据库里面有什么表,表里面有什么字段呢?

实际上还是在解析的时候报错,解析SQL的环节里面有个预处理器。

它会检查生成的解析树,解决解析器无法解析的语义。比如,它会检查表和列名是否存在,检查名字和别名,保证没有歧义。

预处理之后得到一个新的解析树。

查询优化器(Query Optimizer)与查询计划

得到解析树之后,是不是执行SQL语句了呢?

这里我们有一个问题,一条SQL语句是不是只有一种执行方式?或者说数据库最终执行的SQL是不是就是我们发送的SQL?

这个答案是否定的。一条SQL语句是可以有很多种执行方式的,最终返回相同的结果,他们是等价的。但是如果有这么多种执行方式,这些执行方式怎么得到的?最终选择哪一种去执行?根据什么判断标准去选择?

这个就是MySQL的查询优化器的模块(Optimizer)。

查询优化器的目的就是根据解析树生成不同的执行计划(ExecutionPlan),然后选择一种最优的执行计划,MySQL里面使用的是基于开销(cost)的优化器,那种执行计划开销最小,就用哪种。

可以使用这个命令查看查询的开销:

代码100分show status like "Last_query_cost"
优化器可以做什么?

MySQL的优化器能处理哪些优化类型呢?

举两个简单的例子:

  1. 当我们对多张表进行关联查询的时候,以哪个表的数据作为基准表。
  2. 有多个索引可以使用的时候,选择哪个索引。

实际上,对于每一种数据库来说,优化器的模块都是必不可少的,他们通过复杂的算法实现尽可能优化查询效率的目标。

如果对于优化器的细节感兴趣,可以看看《数据库查询优化器的艺术-原理解析与SQL性能优化》。

但是优化器也不是万能的,并不是再垃圾的SQL语句都能自动优化,也不是每次都能选择到最优的执行计划,大家在编写SQL语句的时候还是要注意。

如果我们想知道优化器是怎么工作的,它生成了几种执行计划,每种执行计划的cost是多少,应该怎么做?

优化器是如何得到执行计划的?

首先我们要启用优化器的追踪(默认是关闭的):

show variables like "optimizer_trace";

set optimizer_trace="enabled=on";

注意开启这开关是会消耗性能的,因为它要把优化分析的结果写到表里面,所以不要轻易开启,或者查看完之后关闭它(改成off)。

执行一个SQL语句,优化器会生成执行计划

select a.* from sys_user a ,sys_user_role b  where a.id = b.user_id;

这个时候优化器分析的过程已经记录到系统表里面了,我们可以查询:

select * from information_schema.optimizer_trace;

它是一个JSON类型的数据,主要分成三部分,准备阶段、优化阶段和执行阶段。

阶段 类型 说明
1 join_preparation SQL准备阶段
2 join_optimization SQL优化阶段
3 join_execution SQL执行阶段

分析完记得关掉:

set optimizer_trace="enabled=off";

show variables like "optimizer_trace";
优化器得到的结果

优化完之后,得到一个什么东西呢?

优化器最终会把解析树变成一个查询执行计划,查询执行计划是一个数据结构。

当然,这个执行计划是不是一定是最优的执行计划呢?不一定,因为MySQL也有可能覆盖不到所有的执行计划。

我们怎么查看MySQL的执行计划呢?比如多张表关联查询,先查询哪张表?在执行查询的时候可能用到哪些索引,实际上用到了什么索引?

explan(执行计划)

MySQL提供了一个执行计划的工具。我们在SQL语句前面加上explain,就可以看到执行计划的信息。

explain select a.* from sys_user a ,sys_user_role b  where a.id = b.user_id;

注意:Explain的结果也不一定最终执行的方式。

MySQL SQL语句是如果被执行的?(1)「终于解决」

expain出来的信息有12列,分别是 |列名|描述| |–|–| |id|选择标识符| |select_type|表示查询的类型| |table|输出结果集的表| |partitions|匹配的分区| |type|表示表的连接类型| |possible_keys|表示查询时,可能使用的索引| |key|表示实际使用的索引| |key_len|索引字段的长度| |ref|列与索引的比较| |rows|扫描出的行数(估算的行数)| |filtered|按表条件过滤的行百分比| |Extra|执行情况的描述和说明|

id

这是SELECT的查询序列号,可理解为SQL执行的顺序标识,SQL从大到小的执行。

  1. id相同时,执行顺序由上至下
  2. 如果是子查询,id的序号会递增,id值越大优先级越高,越先被执行
  3. id如果相同,可以认为是一组,从上往下顺序执行;在所有组中,id值越大,优先级越高,越先执行

select_type

类型 说明
SIMPLE 简单SELECT,不使用UNION或子查询等
PRIMARY 子查询中最外层查询,查询中若包含任何复杂的子部分,最外层的select被标记为PRIMARY
UNION UNION中的第二个或后面的SELECT语句
DEPENDENT UNION UNION中的第二个或后面的SELECT语句,取决于外面的查询
UNION RESULT UNION的结果,union语句中第二个select开始后面所有select
SUBQUERY 子查询中的第一个SELECT,结果不依赖于外部查询
DEPENDENT SUBQUERY 子查询中的第一个SELECT,依赖于外部查询
DERIVED 派生表的SELECT, FROM子句的子查询
UNCACHEABLE SUBQUERY 一个子查询的结果不能被缓存,必须重新评估外链接的第一行

table

显示这一步所访问数据库中表名称(显示这一行的数据是关于哪张表的),有时不是真实的表名字,可能是简称,例如上面的a,b,也可能是第几步执行的结果的简称

type

对表访问方式,表示MySQL在表中找到所需行的方式,又称“访问类型”。

类型 说明
ALL Full Table Scan, MySQL将遍历全表以找到匹配的行
index Full Index Scan,index与ALL区别为index类型只遍历索引树
range 只检索给定范围的行,使用一个索引来选择行
ref 表示上述表的连接匹配条件,即哪些列或常量被用于查找索引列上的值
eq_ref 类似ref,区别就在使用的索引是唯一索引,对于每个索引键值,表中只有一条记录匹配,简单来说,就是多表连接中使用primary key或者 unique key作为关联条件
const、system 当MySQL对查询某部分进行优化,并转换为一个常量时,使用这些类型访问。如将主键置于where列表中,MySQL就能将该查询转换为一个常量,system是const类型的特例,当查询的表只有一行的情况下,使用system
NULL MySQL在优化过程中分解语句,执行时甚至不用访问表或索引,例如从一个索引列里选取最小值可以通过单独索引查找完成。

possible_keys

指出MySQL能使用哪个索引在表中找到记录,查询涉及到的字段上若存在索引,则该索引将被列出,但不一定被查询使用(该查询可以利用的索引,如果没有任何索引显示 null)

Key

key列显示MySQL实际决定使用的键(索引),必然包含在possible_keys中

如果没有选择索引,键是NULL。要想强制MySQL使用或忽视possible_keys列中的索引,在查询中使用FORCE INDEX、USE INDEX或者IGNORE INDEX。

key_len

表示索引中使用的字节数,可通过该列计算查询中使用的索引的长度(key_len显示的值为索引字段的最大可能长度,并非实际使用长度,即key_len是根据表定义计算而得,不是通过表内检索出的)

ref

列与索引的比较,表示上述表的连接匹配条件,即哪些列或常量被用于查找索引列上的值

rows

估算出结果集行数,表示MySQL根据表统计信息及索引选用情况,估算的找到所需的记录所需要读取的行数

Extra

该列包含MySQL解决查询的详细信息,有以下几种情况:

类型 说明
Using where 不用读取表中所有信息,仅通过索引就可以获取所需数据,这发生在对表的全部的请求列都是同一个索引的部分的时候,表示mysql服务器将在存储引擎检索行后再进行过滤
Using temporary 表示MySQL需要使用临时表来存储结果集,常见于排序和分组查询,常见 group by ; order by
Using filesort 当Query中包含 order by 操作,而且无法利用索引完成的排序操作称为“文件排序”
Using join buffer 该值强调了在获取连接条件时没有使用索引,并且需要连接缓冲区来存储中间结果。如果出现了这个值,那应该注意,根据查询的具体情况可能需要添加索引来改进能。
Impossible where 这个值强调了where语句会导致没有符合条件的行(通过收集统计信息不可能存在结果)
Select tables optimized away 这个值意味着仅通过使用索引,优化器可能仅从聚合函数结果中返回一行
No tables used Query语句中使用from dual 或不含任何from子句

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/9105.html

(0)
上一篇 2023-02-15
下一篇 2023-02-15

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注