ChunJun&OceanBase联合方案首次发布:构建一体化数据集成方案

ChunJun&OceanBase联合方案首次发布:构建一体化数据集成方案8月27日,ChunJun社区与OceanBase社区联合组织的开源线下Meetup成功举办,会上重磅发布了「OceanBase&ChunJun:构建一体化数据集成方案」。 这是OceanBa

ChunJun&OceanBase联合方案首次发布:构建一体化数据集成方案

8月27日,ChunJun社区与OceanBase社区联合组织的开源线下Meetup成功举办,会上重磅发布了「OceanBase&ChunJun:构建一体化数据集成方案」。

这是OceanBase&ChunJun联合解决方案的首次发布,将针对分库分表的实时数据集成、跨集群/租户的数据集成、不同数据源的实时数据集成、日志类型数据的全增量一体化处理等诸多场景,提供高可靠数据集成解决方案。

下面为大家带来具体介绍,欢迎分享给更多的开发者和爱好者共同学习、探讨。

课件获取:

关注公众号“ChunJun”,后台私信“Meetup”获得分享课件

视频回看:

https://www.bilibili.com/video/BV1mG41137ZV?spm_id_from=333.999.0.0

ChunJun&OceanBase是什么

ChunJun:一款稳定、高效、易用的数据集成框架

ChunJun 是一款高效、稳定、易用的数据集成框架,目前基于Apache Flink 实时计算引擎实现批流一体的数据读取和写入。

file

ChunJun的核心能力

• 多数据源:目前已支持30+数据源,涵盖了各类数据库、文件系统等

•灵活的任务运行模式:支持开箱即用的local模式运行,也支持flink standalone、yarn、k8s等模式;支持Taier、DolphinScheduler、Dlinky等大数据调度平台

• 数据还原:支持 DML 和 DDL 同步,可以最大程度保证源端和目标端的数据和结构统一

• 断点续传:依托Flink的Checkpoint机制,可以从失败的位点重试

• 速率控制:支持多种分片方式,用户可根据自身业务调整分片逻辑;支持调整读取和写入的并发度,控制每秒读取的数据量

• 脏数据管理:支持多种方式存储脏数据,控制脏数据生命周期,并提供统计数据

OceanBase:企业级开源分布式 HTAP数据库

企业级开源分布式 HTAP(Hybrid Transaction/Analytical Processing)数据库,具有原生分布式架构,支持金融级高可用、透明水平扩展、分布式事务、多租户和语法兼容等企业级特性。

OceanBase的核心能力

• 高可用:基于 Paxos 协议,强一致性;少数副本故障,数据不丢,服务不停;RPO=0; RTO<30s

•高扩展:在线进行水平扩、缩容;自动实现负载均衡

• 低成本:不依赖高端硬件,降低成本;极致的压缩比,节省成本

• HTAP:一套计算引擎同时支持混合负载;一套数据库,读写分离

• 高兼容:兼容 MySQL 协议与语法;降低业务改造迁移成本

• 多租户:一套环境独立运行多套业务;保证租户数据安全

ChunJun OceanBase Connector 实现

OceanBase CDC

OceanBase作为分布式数据库,日志信息分布在集群当中不同的机器上,需要有一个工具把这些日志信息进行汇总,拿到正确、完整的日志信息。

OceanBase社区版利用CDC 组件架构进行这项工作,它主要是通过oblogproxy来提供日志拉取的服务,如果想集成OceanBase增量数据的处理,可以在自己的业务应用中去集成oblogclient来进行处理,目前已对接了ChunJun、Flink CDC、Cloud Canal等数据集成框架。

file
OceanBase 社区版 CDC 组件架构

ChunJun Connectors 的工作模式

ChunJun中的读取和写入主要是通过Connector中的一些结构和模块来实现的,包含RDB、CDC 、NoSQL、MQ、File 等。

• RDB Connectors:基于 JDBC Connector,通过轮询支持了源表包含自增列且增量数据只有 insert 操作时的全增量一体化读取及写入。

• CDC Connectors:基于数据库的Binlog 或 Redolog,实现增量数据的读取。

file

ChunJun上的这些数据最终会在Flink进行处理,在Flink当中通过定义动态表的结构,可以将流数据在执行SQL前先转换为可以操作的表,然后通过连续查询来获取一个不断更新的执行结果。

下图就是数据从数据流转成动态表,在流数据上定义一张标,通过执行连续查询来获取不断更新的结果。

file

ChunJun OceanBase Connector 的实现

在ChunJun中主要是通过Chunjun Core模块来满足将数据读取到Flink及从Flink中写出去,其中DynamicTableSourceFactory及DynamicTableSinkFactory支持SQL类型的任务,SourceFactory及SinkFactory用来支持Json类型的任务。

如下图所示,ChunJun OceanBase Connector 的实现主要通过两种方式:一种是从Chunjun Core到JDBC Connector再到OceanBase Connector;另外一种是从Chunjun Core直接到OceanBase CDC Connector。

file

ChunJun & OceanBase 应用

场景1:针对分库分表的实时数据集成

使用 Oceanbase CDC Connector,库表名利用Fnmatch通配,实现分库分表数据源的实时数据集成。这个场景可以做增量同步,也可以做单数据流的ETL操作。

file

场景2:跨集群/租户的数据集成

目前,不同租户的数据在一个连接当中获取不到,如果想对OB当中不同租户的数据做一个统一处理,需通过多个数据库的连接来实现分别读取,这时可以利用ChunJun中与OceanBase相关的connector,读取不同集群、租户数据到 Flink。

file

场景3:不同数据源的实时数据集成

可以对不同种类数据源进行数据汇聚,使用不同类型数据库的 connector,读取不同数据源的数据到 Flink。

file

场景4:日志类型数据的全增量一体化处理

对于只有 insert 增量变动的数据源,基于自增列进行全增量一体化的处理。

file

ChunJun&OceanBase未来展望

● 提高代码质量

· 增加测试 case,覆盖所有的启动方式和常见的业务场景

· 完全适配 MySQL 5.1.4x 和 8.0 驱动

● 20+种丰富的任务类型

· 增加非 transformer 模式 sync 任务的支持

· 增加 OceanBase 企业版 Oracle 模式的支持

● 提高方案可靠性

· 增加数据读取的事务性支持

· 简化 oblogproxy 的部署,支持 Docker 部署

· 增加详细的使用文档

袋鼠云开源框架钉钉技术交流qun(30537511),欢迎对大数据开源项目有兴趣的同学加入交流最新技术信息,开源项目库地址:https://github.com/DTStack/Taier

原文地址:https://www.cnblogs.com/DTinsight/archive/2022/09/16/16699320.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/4765.html

(0)
上一篇 2023-06-05
下一篇 2023-06-06

相关推荐

  • Python列表平均值分析

    Python列表平均值分析Python是一种面向对象、解释型计算机程序设计语言。它支持多种编程范式,包括过程式、面向对象以及函数式编程。Python广泛应用于Web开发、数据分析、数据科学、人工智能、网络爬虫、自动化等众多领域。在Python编程中,列表是一种非常常用的数据类型,因此对Python列表的平均值进行分析的需求也很常见。

    2024-08-18
    27
  • 使用Python开启HTTP服务

    使用Python开启HTTP服务在网络应用程序中,HTTP是一个重要的协议。它可以让Web浏览器和Web服务器之间进行通信,从而实现数据传输和应用程序的交互。Python自带了一个内置模块http.server,可以让我们在不依赖于第三方库的情况下快速地开启一个HTTP服务器。本文将介绍如何使用Python内置的http.server模块来开启HTTP服务。

    2024-06-04
    64
  • 创建漂亮的用户界面 – 了解Python的Tkinter GUI框架

    创建漂亮的用户界面 – 了解Python的Tkinter GUI框架Tkinter是Python标准库中的一个GUI(图形用户界面)工具包。它为Python程序提供了一个本地的、跨平台的GUI环境。Tkinter简单易用,是学习Python GUI编程的一个不错的入门框架。在这篇文章中,我们将深入探讨Tkinter库,并提供一些例子和技巧,以帮助您更好地理解GUI编程的概念和工作原理。

    2024-01-04
    107
  • 用Python的os.path.basename函数获取文件名

    用Python的os.path.basename函数获取文件名 在Python中,我们可以使用os.path.basename函数获取文件路径中的文件名部分,该函数用于获取文件的基本名称(字符串中最后一个反斜杠以后的部分),并将其作为字符串返回。如果路径以反斜杠结尾,则返回前一个部分。该函数可以应用于多种操作系统,如Windows,Linux,Unix等。使用该函数时,需要导入os模块。

    2023-12-10
    113
  • 学习Python网络爬虫之requests模块

    学习Python网络爬虫之requests模块Python作为一门高效便捷的编程语言,有着广泛的应用场景。其中,网络爬虫是Python应用最为精彩、实用的一个方向。requests模块可以说是网络爬虫领域中的瑞士军刀,它可以方便地操作HTTP请求和响应。本文将系统介绍requests模块,让读者更深入地理解并实现Python网络爬虫。

    2024-09-05
    36
  • MongoDB – 事务支持「终于解决」

    MongoDB – 事务支持「终于解决」在 4.2 版本及更高版本中,MongoDB 提供了事务的支持,并且在其是分布式数据库的基础上,提供了支持跨多个操作、集合、数据库、文档和分片的 ACID 事务。

    2023-06-17
    188
  • 甜甜老师1993教学视频_gauss db

    甜甜老师1993教学视频_gauss db无论你是做数据库运维还是数据库开发,都是围绕着数据库吃饭。然而随着计算和数据上云的趋势快速发展,计算和存储资源池化带来了系统设计的颠覆,传统数据库步履蹒跚。 另一方面,随着“国产风”和“去IOE化”的

    2023-02-17
    150
  • Linux下的 Mysql 8.0 yum 安装 并修改密码「终于解决」

    Linux下的 Mysql 8.0 yum 安装 并修改密码「终于解决」1.MySQL版本: mysql> select @@version;+ +| @@version |+ +| 8.0.18 |+ +1 row in set (0.00 sec) 2.Cent

    2023-01-31
    156

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注