flink sql实时计算_flink 编程

flink sql实时计算_flink 编程一、理想与现实 Apache Flink 是一个分布式流批一体化的开源平台。Flink 的核心是一个提供数据分发、通信以及自动容错的流计算引擎。Flink 在流计算之上构建批处理,并且原生的支持迭代计

从零构建Flink SQL计算平台 - 1平台搭建

一、理想与现实

Apache Flink 是一个分布式流批一体化的开源平台。Flink 的核心是一个提供数据分发、通信以及自动容错的流计算引擎。Flink 在流计算之上构建批处理,并且原生的支持迭代计算,内存管理以及程序优化。

实时计算(Alibaba Cloud Realtime Compute,Powered by Ververica)是阿里云提供的基于 Apache Flink 构建的企业级大数据计算平台。在 PB 级别的数据集上可以支持亚秒级别的处理延时,赋能用户标准实时数据处理流程和行业解决方案;支持 Datastream API 作业开发,提供了批流统一的 Flink SQL,简化 BI 场景下的开发;可与用户已使用的大数据组件无缝对接,更多增值特性助力企业实时化转型。

Apache Flink 社区迎来了激动人心的两位数位版本号,Flink 1.10.0 正式宣告发布!作为 Flink 社区迄今为止规模最大的一次版本升级,Flink 1.10 容纳了超过 200 位贡献者对超过 1200 个 issue 的开发实现,包含对 Flink 作业的整体性能及稳定性的显著优化、对原生 Kubernetes 的初步集成以及对 Python 支持(PyFlink)的重大优化。

Flink 1.10 同时还标志着对 Blink的整合宣告完成,随着对 Hive 的生产级别集成及对 TPC-DS 的全面覆盖,Flink 在增强流式 SQL 处理能力的同时也具备了成熟的批处理能力。

在过去的2019年,大数据领域的Flink异常火爆,从年初阿里巴巴高调收购Flink的母公司,到秋天发布的1.9以及最近的1.10版本完成整合阿里Blink分支,各类分享文章和一系列国内外公司应用案例,都让人觉得Flink是未来大数据领域统一计算框架的趋势。尤其是看过阿里云上的实时计算平台,支持完善的SQL开发和批流都能处理的模式让人印(直)象(流)深(口)刻(水)。因为相对于公有云产品,稍微有点规模的公司都更愿意使用开源产品搭建自己的平台,可是仔细研究Flink的官方文档和源码,准备撸起袖子开干时,才发现理想和现实的差距很大……

首先是阿里实时计算平台产品的SQL开发界面:

平台

然而现实中Flink所支持的SQL开发API是这样的:

// create a TableEnvironment for specific planner batch or streaming
TableEnvironment tableEnv = ...; // see "Create a TableEnvironment" section

// register a Table
tableEnv.registerTable("table1", ...)            // or
tableEnv.registerTableSource("table2", ...);     // or
tableEnv.registerExternalCatalog("extCat", ...);
// register an output Table
tableEnv.registerTableSink("outputTable", ...);

// create a Table from a Table API query
Table tapiResult = tableEnv.scan("table1").select(...);
// create a Table from a SQL query
Table sqlResult  = tableEnv.sqlQuery("SELECT ... FROM table2 ... ");

// emit a Table API result Table to a TableSink, same for SQL result
tapiResult.insertInto("outputTable");

// execute
tableEnv.execute("java_job");

代码100分

最后翻遍Flink文档发现提供了一个实验性质的命令行SQL客户端:

flinksqlclient

此外当我们用开源Flink代码部署一套集群后,整个集群有 JobManager 和 TaskManager 两种角色,其中 JobManager 提供了一个简单的管理界面,提供了上传Jar包执行任务的功能,以及一些简单监控界面,此外还提供一系列管理和监控的 Rest Api,可惜都没有和SQL层面直接相关的东西。

之所以有这一系列理想与现实的差异,是因为Flink更多的定位在计算引擎,在开发界面等方面暂时投入较少,但是每写一个SQL然后嵌入到代码中编译成JAR包上传到Flink集群执行是客(小)户(白)所不能接受的,这也就需要我们自己开发一套以SQL作业为中心的管理平台(对用户暴露的web系统),由该平台管理 Flink 集群,共同构成 Flink SQL 计算平台。

二、平台功能梳理

一个完整的SQL平台在产品流程上至少(第一版)需要有以下部分。

  • SQL作业管理:新增、调试、提交、下线SQL任务

  • 数据源和维表管理:用DDL创建数据源表,其中维表也是一种特殊数据源

  • 数据汇管理:用DDL创建数据结果表,即 insert into 结果表 select xxx

  • UDF管理:上传UDF的jar包

  • 调度和运维:任务定时上下线、任务缩容扩容、savepoint管理

  • 监控:日志查看、指标采集和记录、报警管理

  • 其他:角色和权限管理、文档帮助等等……

除了作为Web系统需要的一系列增删改查和交互展示功能外,大部分功能可以通过操作Flink集群提供的Rest接口实现,但是其中没有SQL相关内容,也就是前面四项功能(提交SQL、DDL、UDF,后文统称提交作业部分)都需要自己实现和 Flink 的交互,这也是构建平台的第一个挑战。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/9856.html

(0)
上一篇 2023-01-30
下一篇 2023-01-31

相关推荐

  • 一文带你读懂 Hbase 的架构组成[通俗易懂]

    一文带你读懂 Hbase 的架构组成[通俗易懂]hi,大家好,我是大D。今天咱们继续深挖一下 HBase 的架构组成。 Hbase 作为 NoSQL 数据库的代表,属于三驾马车之一 BigTable 的对应实现,HBase 的出现很好地弥补了大数据

    2023-05-16
    157
  • Python 字典中的 in 关键字用法

    Python 字典中的 in 关键字用法字典是Python中一种非常常用的数据类型,它可以用来存储非序列类型的数据,例如网络请求中的返回值。

    2024-02-26
    103
  • MySQL数据库:在命令提示符中使用mysql

    MySQL数据库:在命令提示符中使用mysql服务启动 在命令提示符中 启动mysql服务 net start mysql 停止mysql服务 net sotp mysql 通过命令行进入 mysql u 用户名 p 键入后会提示输入密码 如果不

    2022-12-21
    155
  • python添加几何属性(python 给类添加属性)

    python添加几何属性(python 给类添加属性)比较简单的方式是把str和int理解为“原始数据类型”,其结构是不可以修改的。理由是,str和int是python中提供的标准数据类型,大家已经对这种数据类型的性质和用法有了普遍的共识和预定。如果硬要自己进行修改或者加上一些自定义的属性,就很容易破坏这种“共识”,进而导致程序可读性下降,甚至引入潜在的bug。

    2023-11-28
    149
  • MySql笔记(一)

    MySql笔记(一)每天给自己一个希望,努力做好自己,不为明天烦恼,不为昨天叹息。当梦想还在,告诉自己:努力,就总能遇见更好的自己! [toc] MySql笔记(一) 1、创建数据库以及删除 1.创建数据库语法:(命令行

    2023-01-23
    144
  • 以太阳http为中心

    以太阳http为中心以太阳HTTP(SolarHTTP)是一种基于HTTP协议的分布式应用程序服务框架和平台。与传统的Web服务器相比,太阳HTTP具有更好的可扩展性、更高的并发性、更好的稳定性和更高的通信效率。太阳HTTP可用于构建各种分布式应用,如Web应用、移动应用、大数据应用等。

    2024-06-06
    63
  • 【华为云技术分享】DLI跨源|当DLI遇见MongoDB[亲测有效]

    【华为云技术分享】DLI跨源|当DLI遇见MongoDB[亲测有效]导语: MongoDB作为灵活高效易扩展的no-schema数据库,越来越受到互联网公司、游戏行业等开发者的青睐,但是MongoDB有着独特的语言接口,并不能很好满足数据分析师构建数据治理应用的需求…

    2023-03-30
    161
  • 利用Python获取以"L"开头的元素并进行处理

    利用Python获取以"L"开头的元素并进行处理以”L”开头的元素指的是字符串、列表、元组中以”L”开头的元素。比如,字符串”Lucas”中的元素”L”,列表[“Lucas”, “Lily”, “Jack”]中的元素”Lily”和”Lack”都是以”L”开头的元素。

    2024-03-27
    79

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注