大家好，我是考100分的小小码，祝大家学习进步，加薪顺利呀。今天说一说ChunJun&OceanBase联合方案首次发布：构建一体化数据集成方案,希望您对编程的造诣更进一步.

ChunJun&OceanBase联合方案首次发布：构建一体化数据集成方案

8月27日，ChunJun社区与OceanBase社区联合组织的开源线下Meetup成功举办，会上重磅发布了「OceanBase&ChunJun：构建一体化数据集成方案」。

这是OceanBase&ChunJun联合解决方案的首次发布，将针对分库分表的实时数据集成、跨集群/租户的数据集成、不同数据源的实时数据集成、日志类型数据的全增量一体化处理等诸多场景，提供高可靠数据集成解决方案。

下面为大家带来具体介绍，欢迎分享给更多的开发者和爱好者共同学习、探讨。

课件获取：

关注公众号“ChunJun”，后台私信“Meetup”获得分享课件

视频回看：

https://www.bilibili.com/video/BV1mG41137ZV?spm_id_from=333.999.0.0

ChunJun&OceanBase是什么

ChunJun：一款稳定、高效、易用的数据集成框架

ChunJun 是一款高效、稳定、易用的数据集成框架，目前基于Apache Flink 实时计算引擎实现批流一体的数据读取和写入。

file

ChunJun的核心能力

• 多数据源：目前已支持30+数据源，涵盖了各类数据库、文件系统等

•灵活的任务运行模式：支持开箱即用的local模式运行，也支持flink standalone、yarn、k8s等模式；支持Taier、DolphinScheduler、Dlinky等大数据调度平台

• 数据还原：支持 DML 和 DDL 同步，可以最大程度保证源端和目标端的数据和结构统一

• 断点续传：依托Flink的Checkpoint机制，可以从失败的位点重试

• 速率控制：支持多种分片方式，用户可根据自身业务调整分片逻辑；支持调整读取和写入的并发度，控制每秒读取的数据量

• 脏数据管理：支持多种方式存储脏数据，控制脏数据生命周期，并提供统计数据

OceanBase：企业级开源分布式 HTAP数据库

企业级开源分布式 HTAP（Hybrid Transaction/Analytical Processing）数据库，具有原生分布式架构，支持金融级高可用、透明水平扩展、分布式事务、多租户和语法兼容等企业级特性。

OceanBase的核心能力

• 高可用：基于 Paxos 协议，强一致性；少数副本故障，数据不丢，服务不停；RPO=0; RTO<30s

•高扩展：在线进行水平扩、缩容；自动实现负载均衡

• 低成本：不依赖高端硬件，降低成本；极致的压缩比，节省成本

• HTAP：一套计算引擎同时支持混合负载；一套数据库，读写分离

• 高兼容：兼容 MySQL 协议与语法；降低业务改造迁移成本

• 多租户：一套环境独立运行多套业务；保证租户数据安全

ChunJun OceanBase Connector 实现

OceanBase CDC

OceanBase作为分布式数据库，日志信息分布在集群当中不同的机器上，需要有一个工具把这些日志信息进行汇总，拿到正确、完整的日志信息。

OceanBase社区版利用CDC 组件架构进行这项工作，它主要是通过oblogproxy来提供日志拉取的服务，如果想集成OceanBase增量数据的处理，可以在自己的业务应用中去集成oblogclient来进行处理，目前已对接了ChunJun、Flink CDC、Cloud Canal等数据集成框架。

file
OceanBase 社区版 CDC 组件架构

ChunJun Connectors 的工作模式

ChunJun中的读取和写入主要是通过Connector中的一些结构和模块来实现的，包含RDB、CDC 、NoSQL、MQ、File 等。

• RDB Connectors：基于 JDBC Connector，通过轮询支持了源表包含自增列且增量数据只有 insert 操作时的全增量一体化读取及写入。

• CDC Connectors：基于数据库的Binlog 或 Redolog，实现增量数据的读取。

file

Flink 流数据与动态表

ChunJun上的这些数据最终会在Flink进行处理，在Flink当中通过定义动态表的结构，可以将流数据在执行SQL前先转换为可以操作的表，然后通过连续查询来获取一个不断更新的执行结果。

下图就是数据从数据流转成动态表，在流数据上定义一张标，通过执行连续查询来获取不断更新的结果。

file

ChunJun OceanBase Connector 的实现

在ChunJun中主要是通过Chunjun Core模块来满足将数据读取到Flink及从Flink中写出去，其中DynamicTableSourceFactory及DynamicTableSinkFactory支持SQL类型的任务，SourceFactory及SinkFactory用来支持Json类型的任务。

如下图所示，ChunJun OceanBase Connector 的实现主要通过两种方式：一种是从Chunjun Core到JDBC Connector再到OceanBase Connector；另外一种是从Chunjun Core直接到OceanBase CDC Connector。

file

ChunJun & OceanBase 应用

场景1：针对分库分表的实时数据集成

使用 Oceanbase CDC Connector，库表名利用Fnmatch通配，实现分库分表数据源的实时数据集成。这个场景可以做增量同步，也可以做单数据流的ETL操作。

file

场景2：跨集群/租户的数据集成

目前，不同租户的数据在一个连接当中获取不到，如果想对OB当中不同租户的数据做一个统一处理，需通过多个数据库的连接来实现分别读取，这时可以利用ChunJun中与OceanBase相关的connector，读取不同集群、租户数据到 Flink。

file

场景3：不同数据源的实时数据集成

可以对不同种类数据源进行数据汇聚，使用不同类型数据库的 connector，读取不同数据源的数据到 Flink。

file

场景4：日志类型数据的全增量一体化处理

对于只有 insert 增量变动的数据源，基于自增列进行全增量一体化的处理。

file

ChunJun&OceanBase未来展望

● 提高代码质量

· 增加测试 case，覆盖所有的启动方式和常见的业务场景

· 完全适配 MySQL 5.1.4x 和 8.0 驱动

● 20+种丰富的任务类型

· 增加非 transformer 模式 sync 任务的支持

· 增加 OceanBase 企业版 Oracle 模式的支持

● 提高方案可靠性

· 增加数据读取的事务性支持

· 简化 oblogproxy 的部署，支持 Docker 部署

· 增加详细的使用文档

袋鼠云开源框架钉钉技术交流qun（30537511），欢迎对大数据开源项目有兴趣的同学加入交流最新技术信息，开源项目库地址：https://github.com/DTStack/Taier

原文地址：https://www.cnblogs.com/DTinsight/archive/2022/09/16/16699320.html

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。
转载请注明出处: https://daima100.com/4765.html

ChunJun&OceanBase联合方案首次发布：构建一体化数据集成方案

ChunJun&OceanBase是什么

ChunJun：一款稳定、高效、易用的数据集成框架

ChunJun的核心能力

OceanBase：企业级开源分布式 HTAP数据库

OceanBase的核心能力

ChunJun OceanBase Connector 实现

OceanBase CDC

ChunJun Connectors 的工作模式

Flink 流数据与动态表

ChunJun OceanBase Connector 的实现

ChunJun & OceanBase 应用

场景1：针对分库分表的实时数据集成

场景2：跨集群/租户的数据集成

场景3：不同数据源的实时数据集成

场景4：日志类型数据的全增量一体化处理

ChunJun&OceanBase未来展望

相关推荐

发表回复