gh-ost的cut-over过程

gh-ost的cut-over过程作者:魏新平,知数堂第5期MySQL实战班学员,第10期MySQL优化班学员,现任职助教。 Describing safe, blocking, atomic, pure-mysql cut-ove…

gh-ost的cut-over过程

作者:魏新平,知数堂第5期MySQL实战班学员,第10期MySQL优化班学员,现任职助教。

Describing safe, blocking, atomic, pure-mysql cut-over phase

原文链接:https://github.com/github/gh-ost/issues/82

作者:shlomi-noach

我们提供的方式是基于两个数据库连接的。假如我们的连接是C10,C20。应用的连接是C1..C9,C11..C19,C21..C29。

  • C1..C9在 tbl 上进行正常的dml操作:INSERT, UPDATE, DELETE

  • C10: CREATE TABLE tbl_old (id int primary key) COMMENT=”magic-be-here”

  • C10: LOCK TABLES tbl WRITE, tbl_old WRITE

  • C11..C19,新进来的对tbl的操作,由于C10的锁,会被阻塞

  • C20: RENAME TABLE tbl TO tbl_old, ghost TO tbl

  • 由于C10加的锁,也会被阻塞住。但是当锁被释放后,会比C1..C9,C11..C19先执行。

  • C21..C29,新进来对tbl的dml操作还是会被阻塞住

  • C10: 检测C20的rename操作是否存在(在show processlist当中寻找rename关键字)

  • C10: DROP TABLE tbl_old

  • 大家还是被锁住,什么严重的事情都不会发生,除了删除这个tbl_old表。

  • C10:UNLOCK TABLES

  • BAM(象声词,不知道怎么翻译,尴尬,只能意会不能言传)!RENAME操作会先执行,ghost表会被重命名为tbl表,然后C1..C9,C11..C19,C21..C29会直接在新的tbl表上执行。

一些解释:

  • 创建tbl_old是为了阻止C20的RENAME操作

  • 当一个连接拥有对某个表的WRITE锁的时候,可以执行drop该表的操作。

  • 不管是谁先被阻塞,当一个表的INSERT/UPDATE/DELETE操作和RENAME操作同时被阻塞的情况下,RENAME操作总是会先执行。

假如上面的过程当中C10或者C20失败了,会发生什么呢

先说结论,就算失败了,不会发生灾难性的事情,也不需要回滚。

  • 假如C10在CREATE tbl_old的时候发生错误,直接退出

  • 假如C10在LOCK tbl,tbl_old的语句发生错误,直接退出,表不会被锁住,app可以继续对tbl进行dml操作

  • 假如C10在C20刚要执行RENAME操作的时候连接直接挂了

  • WRITE锁会被释放掉,C1..C9,C11..C19可以继续在原表执行

  • C20会因为tbl_old表的存在而RENAME失败

  • 整个操作失败,但是没什么严重的问题产生,只是一些语句被阻塞了很短的一段时间。我们会重试整个cut-over流程。

  • 假如C10在C20被阻塞后挂了,发生的事情和上面的流程差不多。锁释放,C20失败(因为tbl_old的存在),其他所有的被阻塞的语句会正常在原来的表上执行

  • 假如C20在C10 DROP表之前挂了,我们会捕捉到错误并按计划执行。删除表并且释放锁。没什么严重的事情发生,顶多一些语句被阻塞一会。我们需要重新尝试整个流程。

  • 假如C20在C10 DROP后释放锁之前挂了,和上面发生的事情一样。

  • 假如C10和C20都挂了。锁被释放,RENAME失败,C1..C9,C11..C19,C21..C29阻塞的语句会正常在tbl上执行。

不管发生什么事情,在操作的最后我们都会检查ghost表是否还存在。假如不在了,那就说明操作成功了。整个流程可以被看成是原子性的。

顺便说一下,如果操作失败了,可能会存在table_old表需要我们手动删除。其实删不删除都无所谓。如果你看不惯可以删除掉,不删除掉的话,也没关系,下一次操作就不用重建了。

对应用的影响

在流程开始之后到流程结束的时间里,不管是成功还是失败,应用的连接都会被阻塞住。成功的话,阻塞的语句会被执行到新表,失败的话,阻塞的语句会执行到旧表。

对复制的影响

复制只会看到RENAME操作,binlog是不会记录lock语句的。所以复制看到的是原子性的两表交换,不会有表不存在的情况。

针对网友的一些提问

为啥要用两个连接进行这么麻烦的流程?

因为一个连接在获取tbl的锁的情况下,无法进行rename操作(至少现在不能)。但是作者说他会说服工程师在MYSQL的下个版本当中实现,就不需要这么麻烦的操作了。(下面代码测试是我测试的,不是作者的)

admin@localhost [test]  11:39:32>lock table t write;
Query OK,  0 rows affected (0.00 sec)
    
admin@localhost [test]  11:39:36>rename table t to t10;
ERROR 1192  (HY000):  Can"t execute the given command because you have active locked tables or an active transaction
admin@localhost [test] 11:39:48>select @@version;
+---------------+
| @@version     |
+---------------+
| 5.7.22-22-log |
+---------------+
1 row in set (0.00 sec)

代码100分

为啥要锁原来的表和创建的tbl_old表?

由于异步的应用binlog的日志,如果不锁住原表的话,可能会存在一些语句未被应用。为啥要锁住tbl_old表呢,作者自己也不太记得了,因为时间的原因,毕竟是回忆三年前的事情了,不过肯定是有原因的。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/9246.html

(0)
上一篇 2023-02-12
下一篇 2023-02-12

相关推荐

  • 解决Python unboundlocalerror异常的有效方法

    解决Python unboundlocalerror异常的有效方法在Python中,当一个函数中尝试使用未被定义的本地变量时,就会出现unboundlocalerror异常。这个异常通常会出现在嵌套的函数中,而且通常只会在Python 3以后的版本中才会发生,因为Python 2中的变量作用域规则不同。

    2024-04-07
    83
  • 大数据技术之Flume 第1章 Flume概述[通俗易懂]

    大数据技术之Flume 第1章 Flume概述[通俗易懂]第1章 Flume概述 1.1Flume定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 官网地址:https

    2023-05-21
    151
  • 关于Queries_per_sec 性能计数器[通俗易懂]

    关于Queries_per_sec 性能计数器[通俗易懂]【问题描述】 Queries_per_sec (QPS)是数据库两个比较重要的性能计数器指标。我们经常要求开发告知这个参数,以评估数据库的一个负载情况。下面的这段代码连上服务器,做一个简单的查询: u

    2023-01-25
    137
  • TiDB 4.0 为解决热点问题做了哪些改进?[通俗易懂]

    TiDB 4.0 为解决热点问题做了哪些改进?[通俗易懂]作者:李坤 热点问题概述 一直以来,TiDB 的数据访问热点问题,是用户比较关注的问题。为什么这个问题如此突出呢?这其实是“分布式”带来的结构效应。单机数据库由于只有一个节点,是不存在热点问题的(因…

    2023-03-29
    175
  • 如何使用pip删除Python库

    如何使用pip删除Python库Python是一种强大的、灵活的编程语言,其拥有广泛的库支持,可以轻松地使用第三方库来完成各种任务。但是,有时候我们需要从我们的项目中删除一些库,这就需要使用pip来卸载它们。

    2024-05-29
    58
  • 使用Pycharm安装Python包方法

    使用Pycharm安装Python包方法Pycharm是一款常用的Python IDE,具有可视化的操作界面和丰富的功能。在Python的开发过程中,我们通常需要安装一些第三方的Python包,以便于我们编写更加优秀的程序。

    2024-09-03
    25
  • MySQL没前途了吗?[通俗易懂]

    MySQL没前途了吗?[通俗易懂]为什么我继续看好MySQL 最近几年,似乎总有一种声音在说,MySQL可能不太行了,原因无非是这么几条,MySQL功能不如PG强大,原生没有分库分表不如TIDB,OLAP性能差。 可事实真的如此吗?…

    2023-02-23
    153
  • 让数据处理更加高效:使用Python NumPy数组

    让数据处理更加高效:使用Python NumPy数组在数据科学和机器学习领域,数据处理一般是数据工作流程中最耗费时间的部分。Python是最流行的数据处理语言之一,但如果使用Python内置的数据类型,如列表和字典来处理大量数据,处理速度会很慢。这时候,NumPy数组的使用可以大大提高处理效率。

    2024-02-24
    105

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注