巧用符号链接迁移 HDFS 数据,业务完全无感知![通俗易懂]

巧用符号链接迁移 HDFS 数据,业务完全无感知![通俗易懂]问题 JuiceFS 是一个基于对象存储的分布式文件系统,在之前跟对象存储比较的文章中已经介绍了 JuiceFS 能够保证数据的强一致性和极高的读写性能,因此完全可以用来替代 HDFS。但是数据平台整

巧用符号链接迁移 HDFS 数据,业务完全无感知!

问题

JuiceFS 是一个基于对象存储的分布式文件系统,在之前跟对象存储比较的文章中已经介绍了 JuiceFS 能够保证数据的强一致性和极高的读写性能,因此完全可以用来替代 HDFS。但是数据平台整体迁移通常是一个费时费力的大工程,需要做到迁移超大规模数据的同时尽量不影响上层业务。下面将会介绍如何通过 JuiceFS 的迁移工具来实现平滑迁移 HDFS 中的海量数据到 JuiceFS。

平滑迁移方案

数据平台除了我们在 HDFS 上实际看到的文件以外,其实还有一些同样重要的信息,也就是所谓的「元数据」,这些元数据存储在类似 Hive Metastore 这样的系统里。因此当我们谈论数据迁移时不能把这两种数据拆分开来,必须同时考虑,迁移完数据以后需要同时更新 Hive 表或者分区的位置(LOCATION)信息,如果任何一种数据出了问题都会对业务方造成影响。

为了保证数据和元数据的一致性,通常的做法是在迁移完数据以后同步更新元数据中的位置信息,但当数据规模比较大,并且业务又可能更新数据时,很难保证数据拷贝和更新位置信息是个原子操作,迁移过程中可能导致数据丢失,影响整体迁移的可靠性。甚至需要以暂停业务为代价来实现,或者在业务中采用双写等机制来实现在线迁移,侵入业务逻辑,费时费力。

如果能够在迁移过程中为数据访问提供统一的路径来屏蔽实际的数据位置,实现元数据和真实数据位置的解耦,将会大大降低整体迁移的风险。文件系统的符号链接就可以达到这个效果,JuiceFS 也支持符号链接,并且支持跨文件系统的符号链接,借助它可以为多个文件系统提供统一的访问入口,形成统一命名空间。

符号链接是操作系统中广泛应用的概念,你可以通过符号链接实现在一个目录树中管理分散在各个地方的数据。对应的,我们也可以通过 JuiceFS 的符号链接特性实现在一个文件系统中管理多个存储系统。其实符号链接这个功能早在 2013 年 Hadoop 社区就已经想要在 HDFS 上实现(HADOOP-10019),但遗憾的是目前为止还没完整支持。借助符号链接即可在 JuiceFS 上管理包括但不限于 HDFS、对象存储在内的各种存储系统,表面上看起来访问的是 JuiceFS,但实际访问的是底层真实的存储。

同时,JuiceFS 的原子重命名(rename)操作也能在数据迁移过程中发挥关键作用。JuiceFS 通过符号链接来跳转回原始数据,但当数据完全拷贝过来以后需要覆盖这个符号链接,这个时候原子重命名就能保证数据的安全性和可靠性,避免出现数据丢失和损坏。

此外,JuiceFS 还可以通过配置文件和特殊的标志文件来动态感知到迁移过程,并在新增和删除文件时进行额外的检查,确保新创建的文件也会出现在迁移后的目录中,并且确保要删除的文件也能从新系统中删掉。对于更复杂的重命名操作,也有类似的机制来保证正确性。

有了刚才介绍的 JuiceFS 的这些特性,就可以实现在数据迁移时分别迁移数据和元数据,同时整个迁移过程对于业务是完全透明的。下面讲解具体的迁移操作步骤。

操作步骤

步骤一:将 JuiceFS 作为 HDFS 的访问入口

在 JuiceFS 上给 HDFS 的所有第一级目录(或文件)创建对应的符号链接(假定不会再在 HDFS 根目录创建内容),之后通过 jfs://name/<path> 就能完整访问 HDFS 里面的内容,两者是完全等价的。如下图所示。

巧用符号链接迁移 HDFS 数据,业务完全无感知![通俗易懂]

步骤二:使用 JuiceFS 来访问 HDFS 中的数据

这一步有两种实现方法。第一种是修改 Hive Metastore 中表或者分区的 LOCATION 为对应的 JuiceFS 路径,例如之前是 hdfs://ns/user/test.db/table_a,新路径则为 jfs://name/user/test.db/table_a。第二种方法是将 fs.hdfs.impl 修改为 com.juicefs.MigratingFileSystem,这样可以维持 LOCATION 不变。

这两种方法的目的都是为了将所有访问 HDFS 的入口改成访问 JuiceFS,因为步骤一已经创建了指向 HDFS 的符号链接,所以不会影响现有业务访问 HDFS。

步骤三:迁移目录结构

从这一步开始我们会正式进行迁移工作,不过先不着急把数据拷贝过来,我们需要先把目录结构从 HDFS 中映射过来。你可以选择你想要迁移的表或目录,然后通过 JuiceFS 提供的工具快速将 HDFS 上的目录结构迁移到 JuiceFS 上。以迁移 hdfs://ns/user/test.db/table_a 为例,这个目录中的所有子目录将会逐级在 JuiceFS 中创建。因为这一步仅涉及元数据操作,没有数据拷贝,因此可以以极快的速度将历史数据的目录结构从 HDFS 迁移到 JuiceFS 上。同时需要注意的是,所有文件仍然通过符号链接的方式指向 HDFS 中的路径。如下图所示,红色部分即表示在 JuiceFS 上新创建的目录。

巧用符号链接迁移 HDFS 数据,业务完全无感知![通俗易懂]

同样的,完成这一步以后不会影响现有业务访问 HDFS,但是新写入的数据将会直接存储到 JuiceFS 中。

步骤四:迁移数据

这一步将会真正开始拷贝数据,通过 JuiceFS 的迁移工具并发地将上一步遗留的指向 HDFS 中普通文件的符号链接替换为真实的数据。最终迁移目录中将不再会有符号链接,也就表示这个目录已经迁移完成。如下图所示,红色部分已经从符号链接变成了普通文件。

巧用符号链接迁移 HDFS 数据,业务完全无感知![通俗易懂]

反向迁移

在数据迁移过程中也可以通过反向迁移随时回滚,来撤销迁移操作。如果已经修改了元数据中的位置信息,JuiceFS 迁移工具能确保反向迁移时恢复回原来的状态。如果已经有新增的数据写入到 JuiceFS 中,也能把这些新增数据拷贝回原始的存储系统。

总结

通过前面的操作步骤介绍,可以看到整个迁移过程完全不会影响现有业务继续访问 HDFS,从开始到结束对于业务来说都是无感知的。JuiceFS 提供了完善的工具来简化迁移流程,详细的操作指南请参考 JuiceFS 官方文档。

巧用符号链接迁移 HDFS 数据,业务完全无感知![通俗易懂]

本篇文章以将 HDFS 迁移到 JuiceFS 为例说明了 JuiceFS 的符号链接特性,其实你完全可以发挥脑洞,把 JuiceFS 的符号链接应用在更多更广的场景,例如在不同 HDFS 集群之间进行数据迁移、跨云跨区的数据迁移等。正是因为有了强大的符号链接特性,通过 JuiceFS 来提供统一的数据访问层和视图,才使得很多时候无法平滑操作的事情成为了可能。

推荐阅读:知乎 x JuiceFS:利用 JuiceFS 给 Flink 容器启动加速

如有帮助的话欢迎关注我们项目 Juicedata/JuiceFS 哟! (0ᴗ0✿)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/5607.html

(0)
上一篇 2023-05-02
下一篇 2023-05-02

相关推荐

  • Python实现按钮展示功能 – 让用户轻松操作界面

    Python实现按钮展示功能 – 让用户轻松操作界面按钮展示是指在界面上显示可点击的按钮,通过点击按钮实现相应的操作。在界面中使用按钮展示可以提升用户交互体验,方便用户进行操作,也方便开发者实现用户需求。

    2024-04-11
    77
  • Python文件路径的正确书写方式

    Python文件路径的正确书写方式在实际开发过程中,文件路径的正确书写方式是极其重要的。无论是在开发和部署代码中,还是在处理数据和配置文件中,正确的文件路径都将直接影响程序的运行效果。Python作为广泛使用的编程语言,对于文件路径的处理也有着自己的一套规范和标准,本文将为读者详细介绍Python文件路径的正确书写方式。

    2024-09-22
    12
  • Mysql 8.0.20 Windows 下的安装手记[通俗易懂]

    Mysql 8.0.20 Windows 下的安装手记[通俗易懂]在网上看到Mysql8.0.x 比5.7.x 快3倍(以前的博文里面有比较),实测则不然!甚至不如5.6.x快! 究其原因可能是测试项目、测试环境不同,不能一概而论。 但的确不喜欢8.0.x。原因有…

    2023-03-17
    142
  • 揭秘字节跳动云原生Spark History 服务 UIService「建议收藏」

    揭秘字节跳动云原生Spark History 服务 UIService「建议收藏」本文是字节跳动数据平台数据引擎SparkSQL团队针对 Spark History Server (SHS) 的优化实践分享。 文 | 字节跳动数据平台—数据引擎—SparkSQL团队 在字节跳动内部

    2023-05-09
    153
  • 天天在用Redis,持久化方案你又知道哪些?[通俗易懂]

    天天在用Redis,持久化方案你又知道哪些?[通俗易懂]前言 文章首发于微信公众号【码猿技术专栏】:天天用Redis,持久化方案有哪些你知道吗? Redis目前已经成为主流的内存数据库了,但是大部分人仅仅是停留在会用的阶段,你真的了解Redis内部的工作原

    2023-02-19
    150
  • mysql的日志文件_Java简介

    mysql的日志文件_Java简介1 MySQL日志分类 MySQL 的日志分为两部分: Server层的日志,所有引擎共享 Engine层日志,本文只说明 InnoDB 引擎日志 2 Server 层日志 2.1 错误日志 MyS…

    2023-03-05
    144
  • 袋鼠云陈吉平:深耕国产自研数字化技术与服务,持续为客户创造价值[亲测有效]

    袋鼠云陈吉平:深耕国产自研数字化技术与服务,持续为客户创造价值[亲测有效]在经济面临下行压力、疫情反复等不确定因素之下,推动数字化转型就成为了许多企业的“救命稻草”。然而,较高的数字化转型门槛、不成系统的数据服务,以及缺乏规范的行业标准等都成了企业数字化转型路上的“绊脚石”

    2023-06-14
    143
  • Python中多行注释用法

    Python中多行注释用法注释是在程序中起到重要作用的代码标记。在Python中,注释有两种形式:单行注释和多行注释。单行注释主要用“#”号标注,而多行注释使用三引号(”’ ”’)或三个双引号(””” “””)标注。

    2024-07-25
    34

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注