大数据dds_应用用户数据怎么那么大

小小码 • 2023-06-19 18:30 • 代码基础 • 阅读 151

一键激活最新全家桶

大数据dds_应用用户数据怎么那么大我们前面采集的日志数据已经保存到 Kafka 中，作为日志数据的 ODS 层，从 Kafka 的ODS 层读取的日志数据分为 3 类, 页面日志、启动日志和曝光日志。这三类数据虽然都是用户行为数据，但

大家好，我是考100分的小小码，祝大家学习进步，加薪顺利呀。今天说一说大数据dds_应用用户数据怎么那么大,希望您对编程的造诣更进一步.

大数据 - DWD&DIM 行为数据

我们前面采集的日志数据已经保存到 Kafka 中，作为日志数据的 ODS 层，从 Kafka 的ODS 层读取的日志数据分为 3 类, 页面日志、启动日志和曝光日志。这三类数据虽然都是用户行为数据，但是有着完全不一样的数据结构，所以要拆分处理。将拆分后的不同的日志写回 Kafka 不同主题中，作为日志 DWD 层。
流页面日志输出到主流,启动日志输出到启动侧输出流,曝光日志输出到曝光侧输出流

识别新老用户

本身客户端业务有新老用户的标识，但是不够准确，需要用实时计算再次确认(不涉及业务操作，只是单纯的做个状态确认)。

启动日志

曝光日志

页面日志

实现逻辑

获取执行环境
消费 ods_base_log 主题数据创建流
将每行数据转换为JSON对象(脏数据写到侧输出流)
新老用户校验状态编程
分流侧输出流页面：主流启动：侧输出流曝光：侧输出流
提取侧输出流
将三个流进行打印并输出到对应的Kafka主题中
启动任务

# 启动三个消费者，分别消费 dwd_start_log、dwd_page_log、dwd_display_log 主题
$ bin/kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --topic dwd_page_log

尚硅谷源代码
B站视频 DWD&DIM

原文地址：https://www.cnblogs.com/vipsoft/archive/2022/12/09/16965975.html

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。
转载请注明出处: https://daima100.com/4435.html

赞 (0)

0 0

全网最全的linux上docker安装oracle的详细文档，遇到了n个问题，查了几十篇文章，最终汇总版，再有解决不了的,私聊我，我帮你解决[通俗易懂]

上一篇 2023-06-19

redis更新缓存数据命令_redis缓存数据怎么更新

下一篇 2023-06-19

代码基础

北京银行京管+_TIDB在win10安装

北京银行京管+_TIDB在win10安装作者介绍：陈振东，北京银行软件开发部北京银行是一家城市商业银行，公司价值位列中国区域性发展银行的首位，依托于中国经济的大环境，北京银行的资产总量在全球千家大银行中名列第 61 位，连续六年跻身全球…

小小码
2023-03-22
154
代码基础

利用RadonDB实现MySQL分库分表

利用RadonDB实现MySQL分库分表利用RadonDB实现MySQL分库分表 RadonDB是青云上提供的MySQL分布式解决方案，提供数据库的透明拆分及高可用服务。RadonDB包括Radon, Xenon, MySQL三部分安装。…

小小码
2023-02-08
150
代码基础

Python GUI开发：使用tkinter创建窗口

Python GUI开发：使用tkinter创建窗口tkinter是Python自带的一个标准GUI库，可以帮助开发者创建各种窗口界面。本文将从以下几个方面详细介绍如何使用tkinter创建窗口。

admin
2024-02-19
107
代码基础

SQL Injection (Blind) time 盲注入[亲测有效]

SQL Injection (Blind) time 盲注入[亲测有效]python3编写EXP系列 SQL Injection (Blind) time盲注入 1 简介 DVWA靶场这个是最基础的靶场如果想学习EXP编写这个靶场最好不过，如果能把这个靶场的利用的EXP…

小小码
2023-04-12
163
代码基础

大数据Hadoop之——Spark集群部署（Standalone）[亲测有效]

大数据Hadoop之——Spark集群部署（Standalone）[亲测有效]一、Spark概述 Spark基础概念和原理讲解可以参考我上篇博文：大数据Hadoop之——计算引擎Spark 二、Spark的运行模式 1）Standalone（本章讲解）独立模式，自己独立一套集

小小码
2023-05-12
130
代码基础

Redis(一)安装[通俗易懂]

Redis(一)安装[通俗易懂]Redis(一)安装我使用的是Centos8.1和redis6.2.6 Redis的官方网站地址：https://redis.io/ 1.安装gcc依赖在root用户下执行 yum install

小小码
2023-06-17
161
代码基础

提高用户粘性：Python实现的小技巧

提高用户粘性：Python实现的小技巧个性化推荐是现今很多网站都在实践的一种方法，它可以帮助用户更快速地找到自己感兴趣的内容，并且增强用户对网站的粘性。Python中有很多机器学习库可以实现个性化推荐的算法，如Scikit-learn、TensorFlow等。其中，基于协同过滤的推荐算法比较常见。下面是一个协同过滤的推荐示例：

admin
2024-01-24
102
代码基础

Failed to run ‘create login’ or ‘sp_addsrvrolemeber’ in sql Linux using windows authentcation[通俗易懂]

Failed to run ‘create login’ or ‘sp_addsrvrolemeber’ in sql Linux using windows authentcation[通俗易懂]Error 15404 ‘Could not obtain information about Windows NT group/user ‘%ls’, error code 0x80090304′

小小码
2022-12-21
157

发表回复