当我们在聊「开源大数据调度系统Taier」的数据开发功能时,到底在讨论什么?

当我们在聊「开源大数据调度系统Taier」的数据开发功能时,到底在讨论什么?原文链接:当我们在聊「开源大数据调度系统Taier」的数据开发功能时,到底在讨论什么? 课件获取:关注公众号__ “数栈研习社”,后台私信 “Taier”__ 获得直播课件 视频回放:点击这里 Tai

当我们在聊「开源大数据调度系统Taier」的数据开发功能时,到底在讨论什么?

原文链接:当我们在聊「开源大数据调度系统Taier」的数据开发功能时,到底在讨论什么?

课件获取:关注公众号__ “数栈研习社”,后台私信 “Taier”__ 获得直播课件

视频回放:点击这里

Taier 开源项目地址:github 丨 gitee 喜欢我们的项目给我们点个__ STAR!STAR!!STAR!!!(重要的事情说三遍)__

技术交流钉钉 qun:30537511

本期我们带大家回顾一下摘月同学的直播分享《Taier数据开发介绍》

之前三期内容,我们为大家分享了Taier入门、控制台以及Web前端架构的介绍。本次分享我们将从Taier的数据开发功能,到任务运行、功能可扩展点以及未来规划为大家进行讲解。

一、数据开发功能介绍

Taier 是袋鼠云开源项目之一,是一个分布式可视化的DAG任务调度系统,旨在降低ETL开发成本、提高大数据平台稳定性,Taier的数据开发功能主要分为以下三种:

1、资源管理

资源管理通常使用在UDF等自定义函数的场景中,也可以在任务开发中使用。在Taier中,对于函数引用,主要用在Spark、Flink自定义函数中,而在任务引用中,则主要用于Flink任务。

file

2、函数管理

自定义函数处理流程如下图所示:

file

函数管理在Taier中的具体实现主要包括以下两个方面:

  1. 基于calcite完成不同数据源SQL自定义函数解析

  2. 使用SQL运行前创建临时函数替代创建永久函数,使函数使用更加灵活

3、任务管理

Taier现支持任务:Flink SQL、实时采集、数据同步(ChunJun)、Spark SQL、HiveSQL

Taier中有两块区分,分别为集群和数据开发,如果想在Taier中跑一个任务,需要先在集群中进行配置,具体组件与任务关系如下图:

file

二、Taier任务运行讲解

了解完Taier数据开发的功能介绍后,我们来为大家分享Taier的任务运行逻辑。

1、Spark Sql、Hive Sql临时运行流程

Spark Sql、Hive Sql 临时运行流程主要分为任务编写、SQL处理、SQL执行三步,以下图为SparkSql执行流程:

file

2、Spark Sql 、Hive Sql 运行依赖

Spark Sql 、Hive Sql 运行依赖主要包括以下两类:

● Sql解析(基于calcite进行)

· Sql Type 解析

· 函数、表名解析

● 数据源插件

· 统一不同数据源操作入口

· 封装数据源对应的数据操作方法

三、功能可扩展点介绍

当前而言,Taier中的功能还较为简单,只开放了主要流程的功能,在开源中还有许多可扩展点,接下来为大家介绍Taier的功能可扩展点。

1、功能扩展——数据权限控制

在sparkThrift、hiveserver中去进行create、insert into、alter、select时,不同的公司、不同的人有不一样的数据权限控制,面对这种情况,可以利用Apache Ranger大数据权限管理框架进行权限配置。

具体地址为:

github:https://github.com/ranger/ranger

2、功能扩展——数据血源追踪

通过SQL解析可以得到表和表之间的关系,以及不同表中字段之间的血源关系。

● 实现工具:calcite

● 可操作任务:SparkSql、HiveSql、数据同步(ChunJun)

用sql举例:

create table zy_0710_1 (id int, name string);

create table zy_0710_2 as select id , name from zy_0710_1;

create table zy_0710_3 as select id , name from zy_0710_2;

file

四、Taier1.2尝鲜

最后为大家介绍未来不久将发布的Taier1.2新版本尝鲜:

●集群管理

控制台ui升级

● 数据开发

  1. 集群租户绑定流程简化

  2. 任务开发代码层面优化

  3. 任务新增schema配置

● 新增功能

  1. FlinkSql支持jar包方式

  2. 新增工作流任务

  3. 自定义扩展开发任务

袋鼠云开源框架钉钉技术交流qun(30537511),欢迎对大数据开源项目有兴趣的同学加入交流最新技术信息,开源项目库地址:https://github.com/DTStack

原文地址:https://www.cnblogs.com/DTinsight/archive/2022/07/21/16502176.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/4993.html

(0)
上一篇 2023-05-27
下一篇 2023-05-27

相关推荐

  • MySQL学习——使用mysqldump命令备份和还原「建议收藏」

    MySQL学习——使用mysqldump命令备份和还原「建议收藏」本文主要学习了如何使用mysqldump命令备份和还原数据库。

    2022-12-28
    153
  • Python单引号和双引号的区别

    Python单引号和双引号的区别在Python编程过程中,单引号和双引号都可以用来表示字符串,而且它们的语法是相同的。那么,为什么Python中会存在这两种字符串表示方法呢?它们之间有什么区别呢?在本文中,我们将深入探讨Python单引号和双引号的区别。

    2024-06-06
    55
  • oracle sqlldr_dba_jobs

    oracle sqlldr_dba_jobs看到题目,你可能会比较懵:TiDB SQL Infra 是什么?TiDB 不就是一个 Infrastructure Project 么?简单说来,TiDB SQL Infra Team 就是 TiD…

    2023-02-05
    151
  • Redis-_redis 列表

    Redis-_redis 列表Redis简要知识点概括,看到就能回忆起相关内容为最妙~~

    2023-06-18
    154
  • Python数字输入

    Python数字输入Python可以轻松地生成数字序列并进行操作。以下是将从100到200的数字序列生成的代码示例,并输出从100到200之间的所有奇数。

    2024-05-20
    75
  • [离线计算-Spark|Hive] 大数据应用性能指标采集工具改造落地[亲测有效]

    [离线计算-Spark|Hive] 大数据应用性能指标采集工具改造落地[亲测有效]本文主要介绍了下Uber的开源项目jvm-profiler的产生背景,设计原理以及架构, 后面也设计了一套落地方案,用于采集spark、hive任务的资源消耗相关指标,可用于后续分析以及资源调优.

    2023-05-04
    157
  • 利用Python正则表达式从文本中提取信息

    利用Python正则表达式从文本中提取信息在处理数据时,有时候需要从一段文本中提取特定的信息,比如从一篇新闻文章中提取标题和正文内容,或者从一段网页中提取链接等信息。在这种情况下,正则表达式是一个非常有用的工具,它可以帮助我们快速、准确地从文本中提取想要的信息。Python作为一门优秀的编程语言,自然也提供了支持正则表达式的模块——re模块。

    2024-04-09
    79
  • Python Assert:优化代码调试与测试

    Python Assert:优化代码调试与测试Python Assert是Python中的一种断言语句,用于在代码中进行自动化测试。通过在代码中插入assert语句,可以对代码做出各种前置条件的检查,以确保代码的正确性。当assert语句的条件返回False时,程序将会中止并抛出异常,以提醒开发人员代码存在问题。

    2024-03-15
    76

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注