全方位认识HBase:一个值得拥有的NoSQL数据库(一)[通俗易懂]

全方位认识HBase:一个值得拥有的NoSQL数据库(一)[通俗易懂]前言: 说起HBase这门技术,在认知上对于稍微接触或使用过它的人来讲,可能只是百千数据库中一个很普通的库,大概就像我对Redis的认知一样:缓存嘛!可对于HBase,我确实是带着某些感情在的。今日突

全方位认识HBase:一个值得拥有的NoSQL数据库(一)

前言:说起HBase这门技术,在认知上对于稍微接触或使用过它的人来讲,可能只是百千数据库中一个很普通的库,大概就像我对Redis的认知一样:缓存嘛!可对于HBase,我确实是带着某些感情在的。今日突然萌生了一个生趣的想法,想抛开技术的视角,从情感的角度,像写小说一样,写写这位老朋友,这可能会有点滑稽吧,不过我觉得很放松。《全方位认识HBase:一个值得拥有的NoSQL数据库》:从今天起,我们就暂且认为这是一本小说的名字吧!哈哈~

其实我特别想做的一件事情,就是想让更多的人来认识并使用HBase这门地地道道的大数据栈技术,当然不为别的,主要原因还是HBase真的很棒很热,自己用着感觉真的好,不好的产品我怎么会推荐给你呢?毕竟HBase这家伙不会给我一分钱的广告费~

那首先,我想给大家分享的内容就是:在我刚接触HBase这位老朋友的时候根本不想去看的一些觉得没用的东西。什么呢?其实就是特别无聊又深奥的好像还不得不问的灵魂三问:我是谁?我从哪里来?我要到哪里去?

为什么想写写这个呢?真的好无聊啊~ 当然肯定不是我太无聊了,说实话,是因为对它真的有感情了,所以就想把它的前世今生全都介绍给你,可能算是一种情怀,也可能算是一种敬畏,也可能只是怕赶路的人忘了它是谁。

我从哪里来?

我们知道,HBase出现于大数据背景之下,那么谈到这个问题,我们不得不提一下当年奠定了大数据算法基础的风靡全球的Google三篇论文,也称为Google的三驾马车:Google FS[2003]、MapReduce[2004]、BigTable[2006]。三篇论文中文版链接这里提供给大家,闲来没事可以看一看。

链接:https://pan.baidu.com/s/1EIhGR6gADm2BnEh5hW4KUA 
提取码:c1wb 

代码100分

这三篇论文为何风靡全球呢?我们说随着大数据时代的到来,我们同样面临着大数据所带给我们的核心二问:

代码100分1、海量数据如何存储?
2、海量数据如何计算?
3、海量结构化数据如何高效读写?

然而,而谷歌公司在2003年至2006年发布的三篇论文则为解决两个问题提供了思路。

“ 我们设计并实现了 Google GFS 文件系统,一个面向大规模数据密集型应用的、可伸缩的分布式文件系统。
GFS 虽然运行在廉价的普遍硬件设备上,但是它依然了提供灾难冗余的能力,为大量客户机提供了高性能的
服务。

GFS 完全满足了我们对存储的需求。”

Google GFS 文件系统超前的设计思想,为解决大数据时代海量数据的存储提出了解决思路,同时对今后的分布式系统设计都提供了宝贵的指导意义。而MapReduce框架则解决了大数据时代海量数据如何计算的问题,虽然现在的Spark很火,但吃水不能忘了挖井人。

2006年,Google发布了第三篇重要论文。Bigtable 是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布在数千台普通服务器上的 PB 级的数据。Bigtable 的设计目的是可靠的处理 PB 级别的数据,并且能够部署到上千台机器上。用于解决Google内部海量结构化数据的存储以及高效读写问题。

也正是因为这三篇论文的发表,才有了而后的HDFS、MapReduce 和 HBase,才有了2015大数据元年。下面我们详细看一下Hadoop 家族的编年史,这里你大概也可以看出HBase在Hadoop家族中的地位。

*   2002年10月,Doug Cutting和Mike Cafarella创建了开源网页爬虫项目Nutch。

*   2003年10月,Google发表Google File System论文。

*   2004年7月,Doug Cutting和Mike Cafarella在Nutch中实现了类似GFS的功能,即后来HDFS的前身。

*   2004年10月,Google发表了MapReduce论文。

*   2005年2月,Mike Cafarella在Nutch中实现了MapReduce的最初版本。

*   2006年1月,Doug Cutting加入雅虎,Yahoo!提供一个专门的团队和资源将Hadoop发展成一个可在网络上运行的系统。

*   2006年2月,Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。

*   2006年3月,Yahoo!建设了第一个Hadoop集群用于开发。

*   2006年4月,第一个Apache Hadoop发布。

*   2006年11月,Google发表了Bigtable论文,这最终激发了HBase库的创建。

*   2007年10月,第一个可用的HBase发布了。

*   2008年1月,Hadoop成为Apache顶级项目。

*   2008年1月,HBase成为 Hadoop 的子项目。

*   2008年6月,Hadoop的第一个SQL框架——Hive成为了Hadoop的子项目。

*   2009年7月 ,MapReduce 和 HDFS成为Hadoop项目的独立子项目。

*   2009年7月 ,Avro 和 Chukwa 成为Hadoop新的子项目。

*   2009年10月,首届Hadoop World大会在纽约召开。

*   2010年5月 ,HBase脱离Hadoop项目,成为Apache顶级项目。

*   2010年9月,Hive 脱离Hadoop,成为Apache顶级项目。

*   2010年9月,Pig脱离Hadoop,成为Apache顶级项目。

*   2011年1月,ZooKeeper 脱离Hadoop,成为Apache顶级项目。

*   2012年8月,YARN成为Hadoop子项目。

*   2012年10月,第一个Hadoop原生MPP查询引擎Impala加入到了Hadoop生态圈。

*  2014年2月,Spark逐渐代替MapReduce成为Hadoop的缺省执行引擎,并成为Apache基金会顶级项目。

*   2015年10月,Cloudera公布继HBase以后的第一个Hadoop原生存储替代方案——Kudu。

*   2015年12月,Cloudera发起的Impala和Kudu项目加入Apache孵化器。

好了,一张图向大家道一声晚安吧,挺晚了,该睡了~ 下一章我们再追问“我是谁?”的灵魂思考吧~

我从哪里来?

参考文章

https://blog.csdn.net/lfq1532632051/article/details/53219558

扫描二维码关注博主公众号

转载请注明出处!欢迎关注本人微信公众号【HBase工作笔记】

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/8949.html

(0)
上一篇 2023-02-18
下一篇 2023-02-18

相关推荐

  • 随笔记录-_随笔笔记怎么写

    随笔记录-_随笔笔记怎么写我之前用sqlserver连过很多人的数据库,后来我怕登陆的时候登陆错了,想清楚一下连接那里的默认记录,后来在网上找过许多方法都不行,后来误打误撞找到了方法,大家可以试一下下边的方法: 有的直接放在U

    2023-02-05
    101
  • Python数据抓取软件

    Python数据抓取软件Python数据抓取软件是一种可以自动抓取互联网上数据的工具软件,它可以通过一定规则获取指定网站的相关数据,并保存到本地或者服务器中,为用户提供相关的数据分析和数据挖掘。br
    Python数据抓取软件可以自动化处理数据,并从数据中提取重要信息,大大提高了数据分析的效率。同时,Python数据抓取也可以在一定程度上避免了人工操作的失误,确保数据采集的准确性。

    2024-04-14
    24
  • Python字典:简单高效的数据存储与查询

    Python字典:简单高效的数据存储与查询Python中的字典是一种无序的可变集合,其中的元素以键值对的形式存储。在字典中,键和值都可以是任意的Python对象。字典的键必须是不可变对象(如字符串、数字或元组),值可以是任何对象。Python中的字典类似于Java中的Map、C++中的std::map等数据结构。

    2024-02-21
    51
  • 有什么报表工具支持多个不同的数据源?

    有什么报表工具支持多个不同的数据源?基本上所有的报表都号称支持多源,确实简单的关系型所有产品都支持。如果报表工具连关系型都支持不全,那么直接可以淘汰掉。所以考察是否支持多源的重点应该放在以下三点上: 报表工具对非关系型数据源的支持,例…

    2023-03-03
    106
  • mysql为什么不支持中文排序了_excel数字排序

    mysql为什么不支持中文排序了_excel数字排序前言 或许都知道,MySQL不支持中文排序,这样的说法可以说对也可以说也不对。接下来我们分析一下: 首先执行命令,查看编码集: SHOW VARIABLES LIKE 'character_s

    2023-04-20
    101
  • 如何运行 Python 程序?

    Python 程序员必须知道运行 Python 脚本或代码的所有可能方法。这是验证代码是否如我们所愿工作的唯一方法。 Python 解释器负责执行 Python 脚本。Python 解释器是一个在 Python 程序和计算机硬件之间工作的软件。这里我们描述了运行 Python 脚本的一系列方法。

    2023-08-24
    118
  • vlan划分和access端口,trunk端口,hybrid端口的配置[亲测有效]

    vlan划分和access端口,trunk端口,hybrid端口的配置[亲测有效]#一.华为交换机上的端口类型access接口,用于连接终端设备,access接口只允许一个vlan的流量通过。trunk接口,用于连接不通交换设备,trunk接口可以允许多个vlan的流量通过。hy…

    2023-03-30
    101
  • 利用pyspark实现contains操作,高效的查找对应数据

    利用pyspark实现contains操作,高效的查找对应数据在处理海量数据时,快速、高效地查找对应数据至关重要。和关系型数据库中的like操作类似,在pyspark中可以使用contains操作来实现类似的功能。本文将从以下几个方面阐述pyspark中contains操作的使用:

    2024-02-04
    52

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注