分布式 | Global 表 Left Join 拆分表实现原因探究「建议收藏」

小小码 • 2023-03-16 18:30 • 代码基础 • 阅读 159

大家好，我是考100分的小小码，祝大家学习进步，加薪顺利呀。今天说一说分布式 | Global 表 Left Join 拆分表实现原因探究「建议收藏」,希望您对编程的造诣更进一步.

分布式 | Global 表 Left Join 拆分表实现原因探究

本文关键字：JOIN、原理解析、分库分表

问题

前几天，社区交流群一个小伙伴提出这样一个问题：

分布式 | Global 表 Left Join 拆分表实现原因探究「建议收藏」

小伙伴说：全局表和分片表的左连接能否支持 — 目前测试 mycat 结果不对。

很显然是想要脱坑的 mycat 用户，急需找个替代品，主要的是他也找到了，哈哈哈。

场景重现

首先我们创建一个全局表和一个拆分表，各自设置两个分片节点，全局表在两个节点数据一致，拆分表 id=1、2 的在一个节点，id=5000001 的在另一个节点，其中 id=1 和 id=2 的只有 id 字段值不同、code&content 字段值都一样。

分布式 | Global 表 Left Join 拆分表实现原因探究「建议收藏」

mycat 场景重现

以上准备工作完成，接下来我们通过 a.id、b.code 将两张表左连接查询，结果如小伙伴所言：mycat 结果不对。

分布式 | Global 表 Left Join 拆分表实现原因探究「建议收藏」

dble 场景重现

以上准备工作完成，接下来我们通过 a.id、b.code 将两张表左连接查询，结果如下所示；显而易见实际得到的结果符合预期想要的结果。

分布式 | Global 表 Left Join 拆分表实现原因探究「建议收藏」

结果探究

根据以上使用 mycat 和 dble 进行 global left join 拆分表查询得到不同的结果，我们尝试着使用 explain 查看同一种类型的查询在执行计划上会有什么不同？

mycat 执行计划

分布式 | Global 表 Left Join 拆分表实现原因探究「建议收藏」

根据上图执行计划，我们简单分析一下。

分布式 | Global 表 Left Join 拆分表实现原因探究「建议收藏」

mycat 会将 sql 原封不动的交由分片配置的所有实例去执行，然后根据执行结果进行合并，这里合并只是简单的对结果进行累加，很显然这样的计划显示 mycat 内部处理逻辑是错误的。因为全局表在每个配置的节点都会存储相同的数据，如果将每个节点和拆分表 left join 的结果进行简单的 union all 合并，会造成数据的重复，不能保证数据的准确性。有些小伙伴可能猜想 union 不是会保证数据不重复吗？如果用 union 是否可行？同样分析一下。

分布式 | Global 表 Left Join 拆分表实现原因探究「建议收藏」