「Flink」使用Managed Keyed State实现计数窗口功能

「Flink」使用Managed Keyed State实现计数窗口功能先上代码:public class WordCountKeyedState { public static void main(String[] args) throws Exception { St

「Flink」使用Managed Keyed State实现计数窗口功能

先上代码:

public class WordCountKeyedState {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        // 初始化测试单词数据流
        DataStreamSource<String> lineDS = env.addSource(new RichSourceFunction<String>() {
            private boolean isCanaled = false;

            @Override
            public void run(SourceContext<String> ctx) throws Exception {
                while(!isCanaled) {
                    ctx.collect("hadoop flink spark");
                    Thread.sleep(1000);
                }
            }

            @Override
            public void cancel() {
                isCanaled = true;
            }
        });

        // 切割单词,并转换为元组
        SingleOutputStreamOperator<Tuple2<String, Integer>> wordTupleDS = lineDS.flatMap((String line, Collector<Tuple2<String, Integer>> ctx) -> {
            Arrays.stream(line.split(" ")).forEach(word -> ctx.collect(Tuple2.of(word, 1)));
        }).returns(Types.TUPLE(Types.STRING, Types.INT));

        // 按照单词进行分组
        KeyedStream<Tuple2<String, Integer>, Integer> keyedWordTupleDS = wordTupleDS.keyBy(t -> t.f1);

        // 对单词进行计数
        keyedWordTupleDS.flatMap(new RichFlatMapFunction<Tuple2<String, Integer>, Tuple2<String, Integer>>() {

            private transient ValueState<Tuple2<Integer, Integer>> countSumValueState;

            @Override
            public void open(Configuration parameters) throws Exception {
                // 初始化ValueState
                ValueStateDescriptor<Tuple2<Integer, Integer>> countSumValueStateDesc = new ValueStateDescriptor("countSumValueState",
                        TypeInformation.of(new TypeHint<Tuple2<Integer, Integer>>() {})
                );
                countSumValueState = getRuntimeContext().getState(countSumValueStateDesc);
            }

            @Override
            public void flatMap(Tuple2<String, Integer> value, Collector<Tuple2<String, Integer>> out) throws Exception {
                if(countSumValueState.value() == null) {
                    countSumValueState.update(Tuple2.of(0, 0));
                }

                Integer count = countSumValueState.value().f0;
                count++;
                Integer valueSum = countSumValueState.value().f1;
                valueSum += value.f1;

                countSumValueState.update(Tuple2.of(count, valueSum));

                // 每当达到3次,发送到下游
                if(count > 3) {
                    out.collect(Tuple2.of(value.f0, valueSum));
                    // 清除计数
                    countSumValueState.update(Tuple2.of(0, valueSum));
                }
            }
        }).print();

        env.execute("KeyedState State");
    }
}

代码100分

代码说明:

1、构建测试数据源,每秒钟发送一次文本,为了测试方便,这里就发一个包含三个单词的文本行

image

2、对句子按照空格切分,并将单词转换为元组,每个单词初始出现的次数为1

image

3、按照单词进行分组

image

4、自定义FlatMap

初始化ValueState,注意:ValueState只能在KeyedStream中使用,而且每一个ValueState都对一个一个key。每当一个并发处理ValueState,都会从上下文获取到Key的取值,所以每个处理逻辑拿到的ValueStated都是对应指定key的ValueState,这个部分是由Flink自动完成的。

image

注意:

带默认初始值的ValueStateDescriptor已经过期了,官方推荐让我们手动在处理时检查是否为空

instead and manually manage the default value by checking whether the contents of the state is null.

代码100分/**
* Creates a new {@code ValueStateDescriptor} with the given name, default value, and the specific
* serializer.
*
* @deprecated Use {@link #ValueStateDescriptor(String, TypeSerializer)} instead and manually
* manage the default value by checking whether the contents of the state is {@code null}.
*
* @param name The (unique) name for the state.
* @param typeSerializer The type serializer of the values in the state.
* @param defaultValue The default value that will be set when requesting state without setting
* a value before.
*/
@Deprecated
public ValueStateDescriptor(String name, TypeSerializer<T> typeSerializer, T defaultValue) {
super(name, typeSerializer, defaultValue);
}

5、逻辑实现

在flatMap逻辑中判断ValueState是否已经初始化,如果没有手动给一个初始值。并进行累加后更新。每当count > 3发送计算结果到下游,并清空计数。

image

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/10114.html

(0)
上一篇 2023-01-25
下一篇 2023-01-25

相关推荐

  • Anaconda历史版本

    Anaconda历史版本作为数据科学家和Python开发者必备的一款工具,Anaconda拥有着众多的用户和高度的关注度。而随着科技的不断发展,Anaconda也在不断更新迭代,不同版本间的差异会对用户带来不同的使用体验。接下来本文将从多个方面详细介绍Anaconda的历史版本,带大家回顾、了解Anaconda的发展历程,以及各版本的新特性。

    2024-05-20
    64
  • mysql 给查询结果新增一个字段,并设定默认值

    mysql 给查询结果新增一个字段,并设定默认值SELECT '第一中学' as school, class, name, geography FROM test_table WHERE test = 1; 插入新table: RE

    2023-03-06
    153
  • 如何在Python中安装tkinter模块

    如何在Python中安装tkinter模块在Python中,Tkinter是最常用的用户图形界面(GUI)编程模块之一。Tkinter是Python自带的一个GUI模块,它提供了用户界面上常用的组件。Tkinter是一个跨平台的图形用户界面(GUI)模块。如果您正在学习Python的GUI编程,那么Tkinter将是您的良好选择。在本文中,我们将学习关于如何在Python中安装Tkinter模块的方法。

    2024-08-19
    27
  • Python实现简单的命令行工具

    Python实现简单的命令行工具a href=”https://beian.miit.gov.cn/”苏ICP备2023018380号-1/a Copyright www.python100.com .Some Rights Reserved.

    2024-02-26
    106
  • Python字典添加键值对函数实现

    Python字典添加键值对函数实现Python给开发者提供了丰富的数据类型,包括列表、元组、字符串和字典等。在Python中,字典是一种非常常用的数据类型,可以用来存储键值对。

    2024-08-18
    23
  • GaussDB架构(中)「建议收藏」

    GaussDB架构(中)「建议收藏」在GaussDB架构(上)中我们介绍了GaussDB的发展历史和架构概览,本篇主要介绍GaussDB OLTP数据库架构和GaussDB OLAP数据库架构。 GaussDB OLTP数据库架构。 …

    2023-04-13
    148
  • 如何卸载anaconda虚拟环境

    如何卸载anaconda虚拟环境Anaconda是一个用于科学计算的Python发行版,并且自带有众多常用的库和工具。在使用Anaconda安装Python及其库之后,有时需要卸载Anaconda及其虚拟环境。本文将详细阐述如何卸载Anaconda虚拟环境。

    2024-09-15
    27
  • 使用Python的StringIO创建标题

    使用Python的StringIO创建标题在python中,可以使用StringIO模块来创建一个类文件对象。类文件对象的作用与普通文件对象一样,都可以进行读写操作。使用StringIO模拟文件操作很常见,特别是在测试环境下。

    2024-06-06
    63

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注