大数据学习路线[亲测有效]

大数据学习路线[亲测有效]前言 数据科学部为想从事大数据方向学习的小伙伴总结了一下大数据的学习路线,供大家学习参考。由于大数据是一个基础门槛较高就业前景较好的学习方向。所以打算学习大数据的小伙伴要加油啦! 大数据学习路线: 首

大数据学习路线

前言

数据科学部为想从事大数据方向学习的小伙伴总结了一下大数据的学习路线,供大家学习参考。由于大数据是一个基础门槛较高就业前景较好的学习方向。所以打算学习大数据的小伙伴要加油啦!

大数据学习路线:

首先我要了解大数据处理流程:

第一步:数据收集

第二部:数据存储

第三步:数据分析

第四步:数据应用

大数据学习路线[亲测有效]

数据收集

 

大数据处理的第一步是数据的收集。现在的中大型项目通常采用微服务架构进行分布式部署,所以数据的采集需要在多台服务器上进行,且采集过程不能影响正常业务的开展。基于这种需求,就衍生了多种日志收集工具,如 Flume Logstash等,它们都能通过简单的配置完成复杂的数据收集和数据聚合。

 

数据存储

 

收集到数据后,下一个问题就是:数据该如何进行存储?我们通常熟知的就是把数据存入MySQLOracle等传统的关系型数据库,这些传统的数据库的特点是能够快速存储结构化的数据,并支持随机访问。但大数据的数据结构通常是半结构化(如日志数据)、甚至是非结构化的(如视频、音频数据),为了解决海量半结构化和非结构化数据的存储,衍生了 Hadoop HDFS KFSGFS 等分布式文件系统,它们都能够支持结构化、半结构和非结构化数据的存储,并可以通过增加机器进行横向扩展。

分布式文件系统完美地解决了海量数据存储的问题,但是一个优秀的数据存储系统需要同时考虑数据存储和访问两方面的问题,比如你希望能够对数据进行随机访问,这是传统的关系型数据库所擅长的,但却不是分布式文件系统所擅长的,那么有没有一种存储方案能够同时兼具分布式文件系统和关系型数据库的优点,基于这种需求,就产生了 HBaseMongoDB

数据分析

大数据处理最重要的环节就是数据分析,数据分析通常分为两种:批处理和流处理。

批处理:对一段时间内海量的离线数据进行统一的处理,对应的处理框架有 Hadoop MapReduceSparkFlink 等;

流处理:对运动中的数据进行处理,即在接收数据的同时就对其进行处理,对应的处理框架有 StormSpark StreamingFlink Streaming 等。

批处理和流处理各有其适用的场景,时间不敏感或者硬件资源有限,可以采用批处理;时间敏感和及时性要求高就可以采用流处理。随着服务器硬件的价格越来越低和大家对及时性的要求越来越高,流处理越来越普遍,如股票价格预测和电商运营数据分析等。

数据应用

 

数据分析完成后,接下来就是数据应用的范畴,这取决于你实际的业务需求。比如你可以将数据进行可视化展现,或者将数据用于优化你的推荐算法,这种运用现在很普遍,比如短视频个性化推荐、电商商品推荐、头条新闻推荐等。当然你也可以将数据用于训练你的机器学习模型,这些都属于其他领域的范畴,都有着对应的框架和技术栈进行处理,这里就不一一赘述。

 

学习路线

 

学习大数据门槛相对较高,首先要有一定的语言基础

1.java

大数据框架大多采用 Java 语言进行开发,并且几乎全部的框架都会提供 Java API Java 是目前比较主流的后台开发语言,所以网上免费的学习资源也比较多。

2.scala

Scala 是一门综合了面向对象和函数式编程概念的静态类型的编程语言,它运行在 Java 虚拟机上,可以与所有的 Java 类库无缝协作,著名的 Kafka 就是采用 Scala 语言进行开发的。

为什么需要学习 Scala 语言 这是因为当前最火的计算框架 Flink Spark 都提供了 Scala 语言的接口,使用它进行开发,比使用 Java 8 所需要的代码更少,且 Spark 就是使用 Scala 语言进行编写的,学习 Scala 可以帮助你更深入的理解 Spark

 

Linux基础

通常大数据框架都部署在 Linux 服务器上,所以需要具备一定的 Linux 知识。

 

构建工具

 

这里需要掌握的自动化构建工具主要是 MavenMaven 在大数据场景中使用比较普遍,主要在以下三个方面:

1.管理项目 JAR 包,帮助你快速构建大数据应用程序;

2.不论你的项目是使用 Java 语言还是 Scala 语言进行开发,提交到集群环境运行时,都需要使用 Maven 进行编译打包;

3.大部分大数据框架使用 Maven 进行源码管理,当你需要从其源码编译出安装包时,就需要使用到 Maven

 

框架学习

 

我们对框架进行简单的分类总结:

日志收集框架:Flume LogstashKibana

分布式文件存储系统:Hadoop HDFS

数据库系统:MongodbHBase

分布式计算框架:

  • 批处理框架:Hadoop MapReduce
  • 流处理框架:Storm
  • 混合处理框架:SparkFlink

查询分析框架:Hive Spark SQL Flink SQL PigPhoenix

集群资源管理器:Hadoop YARN

分布式协调服务:Zookeeper

数据迁移工具:Sqoop

任务调度框架:AzkabanOozie

集群部署和监控:AmbariCloudera Manager

上面列出的都是比较主流的大数据框架,社区都很活跃,学习资源也比较丰富。建议从 Hadoop 开始入门学习,因为它是整个大数据生态圈的基石,其它框架都直接或者间接依赖于 Hadoop 。接着就可以学习计算框架,Spark Flink 都是比较主流的混合处理框架,Spark 出现得较早,所以其应用也比较广泛。 Flink 是当下最火热的新一代的混合处理框架,其凭借众多优异的特性得到了众多公司的青睐。两者可以按照你个人喜好或者实际工作需要进行学习。

大数据学习路线[亲测有效]

 

开发工具

 

这里推荐一些大数据常用的开发工具:

Java IDE:IDEA 和 Eclipse 都可以。从个人使用习惯而言,更倾向于 IDEA ;

VMware Workstation:在学习过程中,你可能经常要在虚拟机上搭建服务和集群。

MobaXterm:大数据的框架通常都部署在服务器上,这里推荐使用 MobaXterm 进行连接。同样是免费开源的,支持多种连接协议,支持拖拽上传文件,支持使用插件扩展;

Translate Man:一款浏览器上免费的翻译插件 (谷歌和火狐均支持)。它采用谷歌的翻译接口,准确性非常高,支持划词翻译,可以辅助进行官方文档的阅读。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/8375.html

(0)
上一篇 2023-03-01
下一篇 2023-03-01

相关推荐

  • MySQL数据库Group by分组之后再统计数目Count(*)与不分组直接统计数目的区别「建议收藏」

    MySQL数据库Group by分组之后再统计数目Count(*)与不分组直接统计数目的区别「建议收藏」简述问题“统计最新时刻处于某一状态的设备的数量” 1. 首先子查询结果,可以看到每个设备最新的状态信息 2.1 在子查询的基础上,对设备状态进行分组,进行统计每个状态的设备数量 2.1.1 可以看到处

    2022-12-27
    153
  • oracle数据泵导入导出部分用户「建议收藏」

    oracle数据泵导入导出部分用户「建议收藏」问题描述:需要将140服务器中的tbomnew实例下的部分用户导入到118服务器下的tbompx实例中,本次导入导出的两个数据库均为19C 部分用户名:CORE,MSTDATA,BOMMGMT,CFG

    2023-01-23
    143
  • 在我们睡觉的时候,程序能不能自动查 bug?「建议收藏」

    在我们睡觉的时候,程序能不能自动查 bug?「建议收藏」作者介绍:我和我的 SQL 队(成员:杜沁园、韩玉博、黄宝灵、满俊朋),他们的项目「基于路径统计的 sql bug root cause 分析」获得了 TiDB Hackathon 2019 的三等…

    2022-12-25
    158
  • MySQL数据库(二)事务[通俗易懂]

    MySQL数据库(二)事务[通俗易懂]未提交读:读尚未提交的数据
    已提交读:读取已经提交的数据(oracle默认)
    可重复读:保证同一事务多次读取同样记录的结果一致(MySQL默认)
    串行化:每次读取都获得表级共享锁,读写相互阻塞

    2022-12-19
    145
  • Python与OpenSSL的深度结合

    Python与OpenSSL的深度结合随着网络安全的不断升级和加密技术的不断发展,越来越多的公司和组织开始使用OpenSSL来保护网络通信和数据传输的安全。Python 作为一种开源的解释性编程语言,凭借其简洁的语法和强大的功能,能够很好地与 OpenSSL 深度结合,为用户提供更加安全、高效的加密通信服务。

    2024-06-15
    55
  • Python绘制五角星

    Python绘制五角星五角星,又称五边星,是一种具有五个凸出的尖角,互相之间呈角度为36°的几何图形。五角星最早见于公元前2000多年前中国商代和西周早期的甲骨文中。现代五角星成为美国国旗、联邦标志的代表图案之一。

    2024-09-06
    26
  • 本地库还原至阿里云RDS服务器

    本地库还原至阿里云RDS服务器摸索了很久,在此也感谢阿里云售后兄弟的支持。 1、 首先得要有个阿里云账号,已经购买RDS数据库(本文针对SQL Server)且已经开通阿里云OSS服务。 2、 本文档适用于以下版本的实例: RDS

    2022-12-20
    153
  • Python变量:在代码中存储值

    Python变量:在代码中存储值
    在编写Python代码时,经常需要在代码中存储值,这就是Python变量的作用。Python变量可以存储不同类型的值,包括数值、字符串、列表、元组等。在Python中定义变量非常简单,只需要给变量赋值即可。比如:

    2024-01-21
    97

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注