Hadoop组成_hadoop集群由什么组成

Hadoop组成_hadoop集群由什么组成Hadoop的组成,Hadoop的组成主要分为三个部分,分别为最著名的分布式文件系统(HDFS)、MapReduce框架、储存系统(HBase)等组件。
HDFS:数据切割、制作副本、分散储存
Map

Hadoop组成

Hadoop是一个分布式系统基础架构,主要解决海量数据的存储和海量数据的分析计算问题。


 

Hadoop1.x和Hadoop2.x区别:

Hadoop组成_hadoop集群由什么组成

 

在Hadoop1.x时代,Hadoop中的MapReduce同时处理计算和资源调度,耦合性较大,

在Hadoop2.x时代,增加了Yarn,Yarn只负责资源的调度,MapReduce只负责运算。


 

Hadoop组成:

HDFS架构概述

HDFS是一个文件系统,用于存储文件,其次,它是分布式的,由很多服务器联合起来实现其功能。

优点

1)高容错,数据自动保存多个副本。它通过增加副本的形式,提高容错性。一个副本丢失之后,它自动恢复。

2)适合处理大数据。

3)可构建在廉价的机器上,通过多副本机制,提高可靠性。

缺点

1)不适合低延时数据访问,比如毫秒级的存储数据,是做不到的。

2)无法高效的对大量小文件进行存储。存储大量的小文件,会占用NameNode大量的内存来存储文件目录和块信息。

而且小文件存储的寻址时间会超过读取时间,它违反了HDFS的设计目标。

3)不支持并发写入、文件随机修改。一个文件只能有一个写,不允许多个线程同时写。仅支持数据追加,不支持文件

的随机修改。

Hadoop组成_hadoop集群由什么组成

 

HDFS由四部分组成,HDFS Client、NameNode、DataNode和Secondary NameNode。HDFS是一个主/从体系结构,HDFS集群拥有一个NameNode和一些DataNode。NameNode管理文件系统的元数据DataNode存储实际的数据。

HDFS Client:
1、提供一些命令来管理、访问 HDFS,比如启动或者关闭HDFS。
2、与 DataNode 交互,读取或者写入数据;读取时,要与 NameNode 交互,获取文件的位置信息;写入 HDFS 的时候,Client 将文件切分成 一个一个的Block,然后进行存储。

NameNode:即Master,
1、管理 HDFS 的名称空间。
2、管理数据块(Block)映射信息
3、配置副本策略
4、处理客户端读写请求。

DataNode:就是Slave。NameNode 下达命令,DataNode 执行实际的操作。
1、存储实际的数据块。
2、执行数据块的读/写操作。

Secondary NameNode:并非 NameNode 的热备。当NameNode 挂掉的时候,它并不能马上替换 NameNode 并提供服务。
1、辅助 NameNode,分担其工作量。
2、定期合并 fsimage和fsedits,并推送给NameNode。
3、在紧急情况下,可辅助恢复 NameNode。

Yarn架构概述

YARN 是Hadoop分布式处理框架中的资源管理和作业调度技术。负责将系统资源分配给在 Hadoop 集群中运行的各种应用程序,并调度要在不同集群节点上执行的任务。

Hadoop组成_hadoop集群由什么组成

ResourceManager:

1.处理客户端请求。
2.监控NodeManager。
3.启动或监控ApplicationMaster。
4.资源的分配和调度。

NodeManager:

1.管理来自单个节点上的资源。
2.处理来自ResourceManager的命令。
3.处理来自ApplicationMaster的命令。

ApplicationMaster:

1.负责数据的切分。
2.为应用程序申请资源并分配给内部的任务。
3.任务的监控与容错。

Container:

Container的YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等。

MapReduce架构概述

MapReduce负责海量数据的计算。

工作方式简单来说就是我们要数图书馆中的所有书。你数1号书架,我数2号书架。这就是“Map”。我们人越多,数书就更快。

现在我们到一起,把所有人的统计数加在一起。这就是“Reduce”。

 

原文地址:https://www.cnblogs.com/lkylin/archive/2022/05/12/16263628.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/5272.html

(0)
上一篇 2023-05-16
下一篇 2023-05-16

相关推荐

  • 《SQL必知必会》学习笔记整理

    《SQL必知必会》学习笔记整理简介 本笔记目前已包含 《SQL必知必会》中的所有章节。 我在整理笔记时所考虑的是:在笔记记完后,当我需要查找某个知识点时,不需要到书中去找,只需查看笔记即可找到相关知识点。因此在整理笔记时

    2023-04-14
    152
  • 如何配置my.ini文件

    如何配置my.ini文件MySQL是世界上最流行的关系型数据库管理系统之一,其广泛应用于各种大型Web应用和企业应用中。而在使用MySQL时,我们经常需要对my.ini文件进行配置,以达到最佳的性能和安全性。本文将从多个方面详细介绍如何配置my.ini文件。

    2024-06-02
    59
  • 如何用count计算人数_利用countif函数统计人数

    如何用count计算人数_利用countif函数统计人数在日常开发工作中,我经常会遇到需要统计总数的场景,比如:统计订单总数、统计用户总数等。一般我们会使用MySQL 的count函数进行统计,但是随着数据量逐渐增大,统计耗时也越来越长,最后竟然出现慢查询

    2023-06-06
    149
  • 用Python处理JSON文件

    用Python处理JSON文件JSON是一种轻量级的数据交换格式,广泛用于Web应用中的数据传输。Python是一种强大的编程语言,支持对JSON格式数据的处理和解析。本文将从多个方面详细解释如何用Python处理JSON文件。

    2024-09-07
    25
  • MongoDB基础入门

    MongoDB基础入门简介 • MongoDB是为快速开发互联网Web应用而设计的数据库系统。 • MongoDB的设计目标是极简、灵活、作为Web应用栈的一部分。 • MongoDB的数据模型是面向文档的,所谓文档是一种

    2023-02-18
    160
  • 如何做到 10T 集群数据安全备份、1GB/s 快速恢复?

    如何做到 10T 集群数据安全备份、1GB/s 快速恢复?作者:沈泰宁 数据库作为基础设施,其安全性不言而明,因此数据安全备份和恢复功能是在严肃使用场景下的标配。TiDB 作为一款分布式数据库,目前可以满足超大集群的备份恢复的需求,经过测试,10T 数据的…

    2023-02-01
    151
  • flume 安装_flume官方

    flume 安装_flume官方Flume的安装及使用 Flume的安装 1、上传至虚拟机,并解压 tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /usr/local/soft/ 在环境变量中

    2023-04-25
    163
  • Python终端编写HTML中标签示例

    Python终端编写HTML中标签示例HTML标签是用来描述网页内容的标记语言,其中h1/h1标签用于表示文本的最重要的标题。

    2024-06-26
    48

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注