实时开展的意思_全平台直播大数据

实时开展的意思_全平台直播大数据原文链接:实时开发平台建设实践,深入释放实时数据价值 视频回顾:点击这里 课件获取:点击这里 一、实时数仓建设背景 随着整体行业的数字化转型不断深入以及技术能力的不断提高,传统的 T+1 式(隔日)的

实时开发平台建设实践,深入释放实时数据价值丨04期直播回顾

原文链接:实时开发平台建设实践,深入释放实时数据价值

视频回顾:点击这里

课件获取:点击这里

一、实时数仓建设背景

随着整体行业的数字化转型不断深入以及技术能力的不断提高,传统的 T+1 式(隔日)的离线大数据模式越来越无法满足新兴业务的发展需求,开展实时化的大数据业务,是企业深入挖掘数据价值的一条必经之路。

面对数字化转型下的数据快速产生、“小步快跑”的精细化运营及实时化和自动化的决策需求,如何提高实时数据处理能力将成为企业提升竞争力的一大因素。

file

而企业在建设实时数据应用时,又往往面临诸多困难:

  • 实时开发技术门槛高,学习难度大,开发过程依赖各种引擎,链路复杂

  • 开发数据效率低,代码调试复杂

  • 建设成本、使用成本高

  • 数据建模及开发规范不统一,问题难监控,管理困难

file

为了解决这些问题,我们在实时建设过程中需要确定建设方式和建设目标,帮助企业更好的实现实时数仓建设。

file

二、实时数仓建设方法论

如何帮助企业建设实时数仓,我们主要从以下四个步骤入手:

file

1、明确需求

企业进行实时数仓建设的第一步是明确需求,需求需要业务需求和技术需求想结合。

1)业务需求方面:

  • 详细梳理各类实时计算应用场景

  • 详细梳理每个实时指标的具体需求

2)技术需求方面:

  • 详细梳理每个实时指标的数据来源信息

file

2、技术选型

第二步技术选型阶段,技术选型包括四个方面的选型:

a、整体技术路线

b、采集工具

c、消息中间件+计算引擎及

d、维表、结果表的存储数据库

file

3、数仓设计与开发

第三步是数仓设计与开发,包含一下三个方面:

a、实时数仓分层设计

b、开发规范

c、代码开发与调试

file

4、管理与监控

第四步是管理与监控,可以从任务发布、运行监控与告警、实时数据治理这3个部分入手。

file

三、基于数栈实时开发平台建设实时数仓

分享完实时数仓的建设方法论,接下来来为大家分享实时数仓的建设流程。

file

第一步:实时采集

基于Chunjun(原FlinkX)对数据库进行CDC采集,实现采集工具化,可对主流数据源进行CDC(日志数据)和通过JDBC(间隔轮询)两种实时采集方式。

1、CDC读取

读取数据库日志的方式,对源库无压力

2、JDBC读取

面向不开放数据库日志的场景,通过高频率的JDBC轮询读取数据,要求有自增字段

file

第二步:数据开发

1、数据开发基础功能

现在展示的是数据开发的一些基础功能,包括:WEB SQL IDE、可视化建表、维表缓存策略及系统&自定义函数,丰富的底层组件封装,界面化操作,降低开发门槛,使开发人员专注于业务逻辑处理。

file

2、数据开发高阶功能

除了数据开发的基础功能之外,还有面向特定行业或场景的高阶配置,包括自动重试、自动启停、脏数据管理。

file

第三步:发布上线

开发完毕之后就是任务的发布上线,发布上线包括任务调试和任务导入导出两个方面。

file

第四步:任务运维

任务运维就是全局掌控任务的运行,对于一些异常或紧急情况进行处理的过程。

file

上述的实时数仓建设过程,其实正是袋鼠云自研的数栈实时开发StreamWorks产品的落地实践过程。

云原生一站式大数实时开发平台(StreamWorks),面向实时数仓构建的云原生一站式大数据实时开发平台,实现从实时数据采集、实时数据处理、任务监控运维的全链路覆盖。支持Flink多版本引擎、Kubernetes资源调度,提供丰富的运维监控曲线,助力企业实时化转型。
图片

同时产品具备以下特点:

  • 采集+计算+运维一体化

内含实时开发全链路工具,采集、计算、运维一体,降低客户使用成本,降低实时计算门槛。

  • 统一元数据管理

支持输出自研Hadoop集群,同时可对接CDH、HDP、TDH等多集群及Oracle、TiDB等多引擎;节点资源可根据计算存储需求快速弹性伸缩,业务需求稳定响应。

  • 批流一体

支持Flink批流一体式采集+开发, 集成Iceberg,赋能一体式湖仓建设模式。

  • 功能丰富

平台提供任务跨环境发布、代码调试、SQL校验、提交检查、自动启停、批量连接现存任务等丰富功能

  • 云原生支持

在支持YARN+HDFS的基础上,同时支持Kubernetes资源调度、MinIO、OSS等对象存储

同时产品具备3大价值:

  • 降低开发门槛

兼容了多版本引擎、适配多种数据源,封装集成为可视化操作界面。基于Web IDE,图像化配置表信息并使用SQL语言进行开发,降低整体上手门槛

  • 全面运维保障

提供任务全生命周期的可视化运维。全链路拓扑、丰富Metirc曲线展示、多方式多渠道任务告警,帮助用户搭建全面运维体系,提高运维保障。

  • 促进数据规范

协助企业构建实时数仓,建设实时数据标准及规范。搭建一套实时任务调度、任务运行监控及实时任务可靠恢复机制于一体的实时数据平台,保障数据质量,提供统一标准的数据出口。

四、实时数仓建设案例

接下来我们分享两个使用客户的实际案例,为大家介绍实时开发平台如何切实的帮助客户解决问题。

  • 某国有专业经济信息服务机构

file

  • 某证券客户

file

五、数栈批流一体架构解析

最后我们为大家介绍一段拓展资料,关于数栈批流一体架构的解析。

  • 批流一体整体架构

file

  • 批流一体核心价值

file

  • 批流一体数据建设链路

file

  • 批流一体采集技术架构

file

原文来源:VX公众号“数栈研习社”

袋鼠云开源框架钉钉技术交流群(30537511),欢迎对大数据开源项目有兴趣的同学加入交流最新技术信息,开源项目库地址:https://github.com/DTStack

原文地址:https://www.cnblogs.com/DTinsight/archive/2022/06/15/16377849.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/5109.html

(0)
上一篇 2023-05-22
下一篇 2023-05-22

相关推荐

  • 5分钟搞定 MySQL 到 Greenplum / PostgreSQL 数据迁移同步

    5分钟搞定 MySQL 到 Greenplum / PostgreSQL 数据迁移同步简述 本文主要介绍如何使用 CloudCanal 构建一条 MySQL 到 Greenplum / PostgreSQL 的数据同步链路。 支持版本 源端 MySQL 支持的版本为:5.6、5.7、8

    2023-06-18
    145
  • Linux运维 | mysql数据库的备份与恢复

    Linux运维 | mysql数据库的备份与恢复运维工程师的日常工作需要对各种数据进行备份,其中数据库数据的备份当属重点之一,为了方便管理,选择哪种备份方案是很重要的。 数据备份种类 全量备份 全量备份就是指对某一个时间点上的所有数据或应用进行的…

    2023-02-01
    145
  • Python列表长度

    Python列表长度在Python中,列表是一个非常常用的数据类型。但是,你是否曾经想过如何确定一个列表中元素的个数呢?本文将介绍如何使用Python内置函数获取列表长度。

    2024-06-21
    54
  • 安装hadoop前的准备工作_hadooplinux搭建

    安装hadoop前的准备工作_hadooplinux搭建这个hadoop的搭建是以比赛前的练习为目的的,所以我直接以root用户来搭建hadoop,主要也是方便我自己以后复习用的 需要的软件:vmware15.5,xshell6,xftp6,jdk Lin

    2022-12-21
    141
  • Python any函数:判断可迭代对象中是否存在True值

    Python any函数:判断可迭代对象中是否存在True值在Python中,经常需要判断一个可迭代对象中是否存在True值。这个需求非常常见,例如检查一个列表或元组中是否有非空值,或者检查一个字典中是否有非空的value值。对于这种需求,Python中的any函数非常方便。

    2024-02-11
    100
  • 设置系统环境变量与Python os.setenv的使用方法

    设置系统环境变量与Python os.setenv的使用方法系统环境变量是一组操作系统的参数,它们以名称-值对的方式定义。在Windows、Linux和Mac等操作系统中,系统环境变量通常用于配置系统级别的参数,如系统路径、默认程序等。可以通过设置系统环境变量来定制操作系统的行为,这些变量可以在任何时候调用。

    2024-03-13
    84
  • mysql优化手段_MySQL索引优化

    mysql优化手段_MySQL索引优化
    Mysql数据库的优化技术 对mysql优化是一个综合性的技术,主要包括: a:表的设计合理化(符合3NF) b:添加适当索引(index)【四种:普通索引…

    2023-04-05
    165
  • SQLServer 数据库替换NULL

    SQLServer 数据库替换NULL 1 –函数1 2 SELECT COALESCE(NULL, ”); 3 –函数2 4 SELECT ISNULL(NULL, ”); …

    2023-02-22
    157

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注