hadoop的概念_hadoop hdfs

hadoop的概念_hadoop hdfs1.2 Hadoop简介 1.2.1 什么是Hadoop ​ Hadoop 是一个适合大数据的分布式存储和计算平台 ​ 如前所述,狭义上说Hadoop就是一个框架平台,广义上讲Hadoop代表大数据的

1.2 Hadoop简介-hadoop

目录
  • 1.2 Hadoop简介
    • 1.2.1 什么是Hadoop
    • 1.2.2 Hadoop的起源
    • 1.2.3 Hadoop的特点
    • 1.2.4 Hadoop的发行版本
    • 1.2.5 Apache Hadoop版本更迭
    • 1.2.6 第六节 Hadoop的优缺点

1.2 Hadoop简介

1.2.1 什么是Hadoop

​ Hadoop 是一个适合大数据的分布式存储和计算平台

​ 如前所述,狭义上说Hadoop就是一个框架平台,广义上讲Hadoop代表大数据的一个技术生态 圈,包括很多其他软件框架

Hadoop生态圈技术栈

​ Hadoop(HDFS + MapReduce + Yarn)

​ Hive 数据仓库工具

​ HBase 海量列式非关系型数据库

​ Flume 数据采集工具

​ Sqoop ETL工具

​ Kafka 高吞吐消息中间件

​ ……

1.2.2 Hadoop的起源

Hadoop 的发展历程可以用如下过程概述:
Nutch —> Google论文(GFS、MapReduce)—> Hadoop产生 —> 成为Apache顶级项目—> Cloudera公司成立(Hadoop快速发展)

  • Hadoop最早起源于Nutch,Nutch 的创始人是Doug Cutting
    Nutch 是一个开源 Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题
  • 2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。GFS,可用于处理海量网页的存储;MapReduce,可用于处理海量网页的索引计算问题

​ Google的三篇论文(三驾马车)
​ GFS:Google的分布式文件系统(Google File System)
​ MapReduce:Google的分布式计算框架
​ BigTable:大型分布式数据库
​ 发展演变关系:
​ GFS —> HDFS
​ Google MapReduce —> Hadoop MapReduce
​ BigTable —> HBase

  • 随后,Google公布了部分GFS和MapReduce思想的细节,Doug Cutting等人用2年的业余时间实 现了DFS和MapReduce机制,使Nutch性能飙升
  • 2005年,Hadoop 作为Lucene的子项目Nutch的一部分引入Apache
  • 2006年,Hadoop从Nutch剥离出来独立
  • 2008年,Hadoop成为Apache的顶级项目
  • Hadoop这个名字来源于Hadoop之父Doug Cutting儿子的毛绒玩具象

在这里插入图片描述

1.2.3 Hadoop的特点

在这里插入图片描述

1.2.4 Hadoop的发行版本

​ 目前Hadoop发行版非常多,有Cloudera发行版(CDH)、Hortonworks发行版、华为发行版、 Intel发行版等,所有这些发行版均是基于Apache Hadoop衍生出来的,之所以有这么多的版本,是由Apache Hadoop的开源协议决定的(任何人可以对其进行修改,并作为开源或商业产品发布/销售)

​ 企业中主要用到的三个版本分别是:Apache Hadoop版本(最原始的,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称“CDH”)、 Hortonworks版本(Hortonworks Data Platform,简称“HDP”)。

  • Apache Hadoop 原始版本
    官网地址:http://hadoop.apache.org/
    优点:拥有全世界的开源贡献,代码更新版本比较快
    缺点:版本的升级,版本的维护,以及版本之间的兼容性,学习非常方便
    Apache所有软件的下载地址(包括各种历史版本):http://archive.apache.org/dist/
  • 软件收费版本ClouderaManager CDH版本 –生产环境使用
    官网地址:https://www.cloudera.com/
    Cloudera主要是美国一家大数据公司在Apache开源Hadoop的版本上,通过自己公司内部的各种补丁,实现版本之间的稳定运行,大数据生态圈的各个版本的软件都提供了对应的版本,解决了版本的升级困难,版本兼容性等各种问题,生产环境强烈推荐使用
  • 免费开源版本HortonWorks HDP版本–生产环境使用
    官网地址:https://hortonworks.com/
    hortonworks主要是雅虎主导Hadoop开发的副总裁,带领二十几个核心成员成立Hortonworks, 核心产品软件HDP(ambari),HDF免费开源,并且提供一整套的web管理界面,供我们可以通过web界面管理我们的集群状态,web管理界面软件HDF网址(http://ambari.apache.org/)

1.2.5 Apache Hadoop版本更迭

0.x 系列版本:Hadoop当中最早的一个开源版本,在此基础上演变而来的1.x以及2.x的版本
1.x 版本系列:Hadoop版本当中的第二代开源版本,主要修复0.x版本的一些bug等
2.x 版本系列:架构产生重大变化,引入了yarn平台等许多新特性
3.x 版本系列:EC技术、YARN的时间轴服务等新特性

在这里插入图片描述

1.2.6 第六节 Hadoop的优缺点

Hadoop的优点

  • Hadoop具有存储和处理数据能力的高可靠性。
  • Hadoop通过可用的计算机集群分配数据,完成存储和计算任务,这些集群可以方便地扩展到数以千计的节点中,具有高扩展性。
  • Hadoop能够在节点之间进行动态地移动数据,并保证各个节点的动态平衡,处理速度非常快,具有高效性。
  • Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配,具有高容错性。

Hadoop的缺点

  • Hadoop不适用于低延迟数据访问。
  • Hadoop不能高效存储大量小文件。
  • Hadoop不支持多用户写入并任意修改文件。

原文地址:https://www.cnblogs.com/gitBook/archive/2022/12/03/16948237.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/4461.html

(0)
上一篇 2023-06-18 16:30
下一篇 2023-06-18

相关推荐

  • MySQL45讲之生产环境下的性能问题 – flowers「终于解决」

    MySQL45讲之生产环境下的性能问题 – flowers「终于解决」本文介绍一些常见的性能问题,以及在生产环境下应该如何解决。

    2023-04-23
    142
  • 深度解析Python的def关键字

    深度解析Python的def关键字Python是一种面向对象的编程语言,自由、开放、简单、易学、易用,具有快速原型开发的能力。Python语言的核心理念是用代码最少的原则解决问题。

    2024-02-13
    97
  • python select 详解

    python select 详解Python中的select模块为异步I/O提供了高级的交互功能,它是一个标准的UNIX系统调用,可以监控文件描述符(socket、文件句柄等),等待某个或某些文件描述符的状态发生变化,从而进行下一步的操作。使用select模块可以实现异步网络编程,提高网络请求的响应速度。

    2024-04-26
    85
  • SQLZOO练习7-[通俗易懂]

    SQLZOO练习7-[通俗易懂]teacher表: iddeptnamephonemobile 101 1 Shrivell 2753 07986 555 1234 102 1 Throd 2754 07122 555 1920 1

    2023-05-19
    147
  • Python Extend()方法:扩展列表的元素

    Python Extend()方法:扩展列表的元素在Python中,列表是一种很常见的数据类型。列表是可变的,这就意味着可以对列表进行添加、删除和修改操作。Extend()方法是Python列表中的一个非常重要的方法。这个方法用于向列表中添加一些新的元素,扩展列表的长度。

    2023-12-19
    103
  • 华为云端内存_华为数据存储

    华为云端内存_华为数据存储前言 在日常数据库的使用中,难免会遇到一些内存问题。此次博文主要向大家分享一些华为云数仓GaussDB(DWS)内存的基本框架以及基本视图的使用,以便遇到内存问题后可以有一个基本的判断。 注意,本篇…

    2023-03-31
    187
  • SQL查询优化实践[通俗易懂]

    SQL查询优化实践[通俗易懂]为什么要优化 系统的吞吐量瓶颈往往出现在数据库的访问速度上,即随着应用程序的运行,数据库的中的数据会越来越多,处理时间会相应变慢,且数据是存放在磁盘上的,读写速度无法和内存相比 如何优化 设计数据库时

    2022-12-23
    155
  • MySQL第四课[通俗易懂]

    MySQL第四课[通俗易懂]CREATE TABLE biao( name VARCHAR(20) PRIMARY KEY, age INT(11) NOT NULL, sex CHAR(11)DEFAULT 1, love V

    2022-12-18
    147

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注