mysql的join语句_while语句条件

mysql的join语句_while语句条件今天我们来看一下join语句的执行流程 JOIN主要使用 Index Nested-Loop Join 和 Block Nested-Loop Join 算法实现 Index Nested-Loop…

Mysql Join语句执行流程

JOIN主要使用 Index Nested-Loop Join 和 Block Nested-Loop Join 算法实现

Index Nested-Loop Join

如果 join on 相关的字段存在索引就使用 Index Nested-Loop Join 算法来进行关联

如下sql语句的执行过程:

select * from t1 join t2 on (t1.a=t2.a);

代码100分

  1. 对驱动表 t1 做了全表扫描,这个过程需要扫描 100 行;
  2. 而对于每一行 R,根据 a 字段去表 t2 查找,走的是树搜索过程。由于我们构造的数据 都是一一对应的,因此每次的搜索过程都只扫描一行,也是总共扫描 100 行;
  3. 所以,整个执行流程,总扫描行数是 200。

假设不使用 join,那我们就只能用单表查询。我们看看上面这条语句的需求,用单表查询 怎么实现。

  1. 执行select * from t1,查出表 t1 的所有数据,这里有 100 行;
  2. 循环遍历这 100 行数据: 从每一行 R 取出字段 a 的值 $R.a; 执行select * from t2 where a=$R.a; 把返回的结果和 R 构成结果集的一行。

可以看到,在这个查询过程,也是扫描了 200 行,但是总共执行了 101 条语句,比直接 join 多了 100 次交互。除此之外,客户端还要自己拼接 SQL 语句和结果

显然,这么做还不如直接 join 好。

怎么选择驱动表?

假设驱动表的行数是 N,执行过程就要扫描驱动表 N 行,然后对于每一行,到被驱动表上匹配一次

因此整个执行过程,近似复杂度是 N + N2log2M。显然,N 对扫描行数的影响更大,因此应该让小表来做驱动表

结论:

  1. 使用 join 语句,性能比强行拆成多个单表执行 SQL 语句的性能要好;
  2. 如果使用 join 语句的话,需要让小表做驱动表。

但是,你需要注意,这个结论的前提是“可以使用被驱动表的索引”。

Block Nested-Loop Join

如果关联语句中没有索引的话 可能需要扫描 N*M 行 当然Mysql对此有一个优化算法

算法的流程是这样的:

  1. 把表 t1 的数据读入线程内存 join_buffer 中,由于我们这个语句中写的是 select *,因此是把整个表 t1 放入了内存;
  2. 扫描表 t2,把表 t2 中的每一行取出来,跟 join_buffer 中的数据做对比,满足 join 条 件的,作为结果集的一部分返回。

Block Nested-Loop Join 算法的这 N*M 次判断是内存操作,速度上会快很多,性能也更好

接下来,我们来看一下,在这种情况下,应该选择哪个表做驱动表。

  1. 两个表都做一次全表扫描,所以总的扫描行数是 M+N;
  2. 内存中的判断次数是 M*N。

可以看到,调换这两个算式中的 M 和 N 没差别,因此这时候选择大表还是小表做驱动 表,执行耗时是一样的。

join_buffer 放不下怎么办

如果放不下表 t1 的所有数据话,策略很简单,就是分段放

执行过程就变成了:

  1. 扫描表 t1,顺序读取数据行放入 join_buffer 中,放完第 88 行 join_buffer 满了,继续第 2 步;
  2. 扫描表 t2,把 t2 中的每一行取出来,跟 join_buffer 中的数据做对比,满足 join 条件 的,作为结果集的一部分返回;
  3. 清空 join_buffer;
  4. 继续扫描表 t1,顺序读取最后的 12 行数据放入 join_buffer 中,继续执行第 2 步

假设,驱动表的数据行数是 N,需要分 K 段才能完成算法流程,被驱动表的数据行数是 M。 注意,这里的 K 不是常数,N 越大 K 就会越大,因此把 K 表示为λ*N,显然λ的取值范围 是 (0,1)。 所以,在这个算法的执行过程中:

  1. 扫描行数是 N+λ* N*M;
  2. 内存判断 N*M 次。

显然,内存判断次数是不受选择哪个表作为驱动表影响的。而考虑到扫描行数,在 M和 N大小确定的情况下,N小一些,整个算式的结果会更小。

所以结论是,应该让小表当驱动表。

这里我需要说明下,什么叫作“小表”。

在决定哪个表做驱动表的时候,应该是两个表按照各自的条件过滤, 过滤完成之后,计算参与 join 的各个字段的总数据量,数据量小的那个表,就是“小表”,应该作为驱动表

join语句怎么优化

Multi-Range Read 优化

在介绍 join 语句的优化方案之前,我需要先介绍一个知识点,即:Multi-Range Read 优化 (MRR)。这个优化的主要目的是尽量使用顺序读盘

因为大多数的数据都是按照主键递增顺序插入得到的,所以我们可以认为,如果按照主键 的递增顺序查询的话,对磁盘的读比较接近顺序读,能够提升读性能

这,就是 MRR 优化的设计思路。此时,语句的执行流程变成了这样:

  1. 根据索引 a,定位到满足条件的记录,将 id 值放入 read_rnd_buffer 中 ; 2. 将 read_rnd_buffer 中的 id 进行递增排序;
  2. 排序后的 id 数组,依次到主键 id 索引中查记录,并作为结果返回。

另外需要说明的是,如果你想要稳定地使用 MRR 优化的话,需要设置

set optimizer_switch="mrr_cost_based=off"

MRR 能够提升性能的核心在于,这条查询语句在索引 a 上做的是一个范围查询可以得到足够多的主键 id。这样通过排序以后,再去主键索引查数据,才能体现出“顺序性”的优势

Batched Key Access

这个 Batched Key Access (BKA),其实就是对 NLJ 算法的优化

NLJ 算法执行的逻辑是:从驱动表 t1,一行行地取出 a 的值,再到被驱动表 t2 去做 join。也就是说,对于表 t2 来说,每次都是匹配一个值。这时,MRR 的优势就用不上了

那怎么才能一次性地多传些值给表 t2呢?方法就是,从表 t1 里一次性地多拿些行出来, 一起传给表 t2。 既然如此,我们就把表t1 的数据取出来一部分,先放到 join_buffer。 我们知道 join_buffer 在 BNL 算法里的作用,是暂存驱动表的数据。但是在 NLJ 算法里并没有用。那么,我们刚好就可以复用 join_buffer 到 BKA 算法中。

如果要使用 BKA 优化算法的话,你需要在执行 SQL 语句之前,先设置

代码100分set optimizer_switch="mrr=on,mrr_cost_based=off,batched_key_access=on";

BNL 算法的性能问题

大表 join 操作虽然对 IO 有影响,但是在语句执行结束后,对 IO 的影响也就结束了。但是,对 Buffer Pool 的影响就是持续性的,需要依靠后续的查询请求慢慢恢复内存命中率

为了减少这种影响,你可以考虑增大 join_buffer_size 的值,减少对被驱动表的扫描次数。

也就是说,BNL 算法对系统的影响主要包括三个方面:

  1. 可能会多次扫描被驱动表,占用磁盘 IO 资源;
  2. 判断 join 条件需要执行 M*N 次对比(M、N 分别是两张表的行数),如果是大表就会占用非常多的 CPU 资源;
  3. 可能会导致 Buffer Pool 的热数据被淘汰,影响内存命中率

我们执行语句之前,需要通过理论分析和查看 explain 结果的方式,确认是否要使用 BNL 算法。如果确认优化器会使用 BNL 算法,就需要做优化。优化的常见做法是,给被驱动表 的 join 字段加上索引,把 BNL 算法转成 BKA 算法

hash join

如果 join_buffer 里面维护的不是一个无序数组,而是一个哈希表的话,那么就不是 10 亿次判 断,而是 100 万次 hash 查找。这样的话,整条语句的执行速度就快多了吧?

实际上,这个优化思路,我们可以自己实现在业务端。实现流程大致如下:

  1. select * from t1;取得表 t1 的全部 1000 行数据,在业务端存入一个 hash 结构
  2. select * from t2 where b>=1 and b<=2000; 获取表 t2 中满足条件的 2000 行 数据。
  3. 把这 2000 行数据,一行一行地取到业务端,到 hash 结构的数据表中寻找匹配的数据。满足匹配的条件的这行数据,就作为结果集的一行。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/9984.html

(0)
上一篇 2023-01-28 10:30
下一篇 2023-01-28 11:30

相关推荐

  • Python面向对象编程Class的应用场景

    Python面向对象编程Class的应用场景面向对象编程(Object-Oriented Programming, OOP) 是一种编程范式,它使用基于对象的方式来组织代码。Python 的面向对象编程可以使用 Class 来实现。Class 是 Python 中面向对象编程的核心,它可以实现面向对象编程中的封装、继承和多态等特性。

    2023-12-15
    112
  • 数据库负载均衡_数据库服务器的冗余方式

    数据库负载均衡_数据库服务器的冗余方式在文章《Nebula 架构剖析系列(一)图数据库的存储设计》中,我们提过分布式图存储的管理由 Meta Service 来统一调度,它记录了所有 partition 的分布情况,以及当前机器的状态。…

    2023-01-26
    133
  • elasticsearch集群配置(PreviewVersion) – G「终于解决」

    elasticsearch集群配置(PreviewVersion) – G「终于解决」elasticsearch集群配置(PreviewVersion) 准备 首先需要在每个节点有可以正常启动的单节点elasticsearch elasticsearch集群配置仅需要在elastics

    2023-03-12
    153
  • Python实战:使用findstr函数快速查找字符串

    Python实战:使用findstr函数快速查找字符串在我们的日常开发和维护中,常常需要查找某个关键字在代码文件或者文本文件中出现的位置。Python的字符串函数库提供了丰富的函数可以用于字符串的处理和查找,其中findstr函数被广泛使用,它可以帮助我们在字符串中快速定位指定的子字符串,并返回位置信息以便于进行进一步的处理。

    2024-01-12
    104
  • MySQL索引优化分享「建议收藏」

    MySQL索引优化分享「建议收藏」想要提高数据库查询效率,可以通过高质量量的SQL,正确的使用索引,合理的数据库表结构(符合3NF),或者提高系统硬件水平。 那么索引有那些特点可以帮助我们优化并且高效的使用它呢? 1,Explain…

    2023-03-04
    141
  • python对按钮循环点击(python 按钮)

    python对按钮循环点击(python 按钮)1、方法1:while((c=getchar())!=’\n’)

    2023-11-26
    112
  • Python生成随机数

    Python生成随机数Matlab是一种著名的科学计算语言,其内置的rand函数可以生成随机数。在Python中,也可以使用numpy库里的random函数生成和matlab相似的随机数。

    2024-08-02
    29
  • mysql源码安装_mysql 性能优化

    mysql源码安装_mysql 性能优化今天测试Linux 各个软件源 ,发现mysql 配置官方源之后,yum install -y mysql 安装了 mysql lastst 最新版, 安装完之后,奇葩的是没有提示输入密码, 所以 m

    2023-01-23
    148

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注