hive 存储的文件格式_怎么存储为web格式

hive 存储的文件格式_怎么存储为web格式hive 存储格式有很多,但常用的一般是 TextFile、ORC、Parquet 格式,在我们单位最多的也是这三种 hive 默认的文件存储格式是 TextFile。 除 TextFile 外的其他

hive从入门到放弃(六)——常用文件存储格式

hive 存储格式有很多,但常用的一般是 TextFile、ORC、Parquet 格式,在我们单位最多的也是这三种

hive 默认的文件存储格式是 TextFile。

除 TextFile 外的其他格式的表不能直接从本地文件导入数据,要先导入到 TextFile 格式的表中,再从表中用 insert 导入到其他格式的表中。

一、TextFile

TextFile 是行式存储。

建表时无需指定,一般默认这种格式,以这种格式存储的文件,可以直接在 HDFS 上 cat 查看数据。

可以用任意分隔符对列分割,建表时需要指定分隔符。

不会对文件进行压缩,因此加载数据的时候会比较快,因为不需要解压缩;但也因此更占用存储空间。

二、ORCFile

ORCFile 是列式存储。

建表时需指定 STORED AS ORC,文件存储方式为二进制文件。

Orc表支持None、Zlib、Snappy压缩,默认支持Zlib压缩。

Zlib 压缩率比 Snappy 高,Snappy 效率比 Zlib 高。

这几种压缩方式都不支持文件分割,所以压缩后的文件在执行 Map 操作时只会被一个任务所读取。

因此若压缩文件较大,处理该文件的时间比处理其它普通文件的时间要长,造成数据倾斜。

另外,hive 建事务表需要指定为 orc 存储格式。

ORC 格式如下所示:

hive 存储的文件格式_怎么存储为web格式

  • stripe:存储数据的地方,包括实际数据、数据的索引信息
  • index data:保存了数据在 stripe 中位置的索引信息
  • rows data:数据实际存储的地方,数据以流的形式进行存储
  • stripe footer:保存数据所在的文件目录
  • file footer:包含了文件中 stripe 的列表,每个 stripe 的行数,以及每个列的数据类型。它还包含每个列的最小值、最大值、行计数、求和等聚合信息。
  • postscript:含有压缩参数和压缩大小相关的信息

三、Parquet

Parquet 也是列式存储。

建表时需指定 STORED AS PARQUET,文件存储方式为二进制文件。

可以使用的压缩方式有 UNCOMPRESSED、 SNAPPY、GZP和LZO。默认值为 UNCOMPRESSED,表示页的压缩方式

hive 存储的文件格式_怎么存储为web格式

  • 行组(Row Group):每一个行组包含一定的行数,在一个HDFS文件中至少存储一个行组,类似于orc的stripe的概念。

  • 列块(Column Chunk):在一个行组中每一列保存在一个列块中,行组中的所有列连续的存储在这个行组文件中。一个列块中的值都是相同类型的,不同的列块可能使用不同的算法进行压缩。

四、三者对比

同样的数据,TextFile 为 2.4G 的情况下,将原数据存放为 ORC 以及 Parquet 格式后,其占用存储大小以及查询效率大致如下:

hive 存储的文件格式_怎么存储为web格式

由此可以看出压缩比:ORC > Parquet > TextFile

在只有 Fecth 的情况下,由于 TextFile 不需要解压缩,因此效率较高。

对于需要 MapReduce 操作的查询,效率:ORC >= Parquet > TextFile

当然,这只是我自己简单的测试,有些变量并没有控制好。

比如在单个文件比较大的情况下,可能 Parquet 的效率会比较高。

在实际生产中,使用 Parquet 存储 lzo 压缩的方式比较常见,这种情况下可以避免由于读取不可分割的大文件引发的数据倾斜。

但是,如果数据量并不大,使用 ORC 存储 snappy 压缩的效率还是非常高的;对于需要事务的场景,还是用 ORC。

至于要用哪种存储格式,需要基于自身业务进行考量。

今天的文章到这里就结束了,如果觉得写的不错的话,可以随手点个赞和关注!

关注“大数据的奇妙冒险”,转载请注明出处!

原文地址:https://www.cnblogs.com/lyuzt/archive/2022/05/19/16289827.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/5222.html

(0)
上一篇 2023-05-18
下一篇 2023-05-18

相关推荐

  • Python函数原理与用法详解

    Python函数原理与用法详解Python函数是一段可重复使用的代码块,可以接受输入并返回输出。在整个Python编程中,函数是非常重要的部分。也是编写可读且容易维护的Python代码的关键之一。通过Python函数,我们可以轻易地实现某个功能,让复杂的操作变得简单化且高效。

    2024-03-27
    83
  • Python 变量:用于存储数据的标识符

    Python 变量:用于存储数据的标识符Python 是一种高级编程语言,它提供了丰富的数据类型,其中最基本的就是变量。在Python中,变量用于存储数据,可以是数字、字符串、列表、元组、字典等。变量名需要符合一定的规则,同时一个变量可以赋值为不同的数据类型。

    2024-03-26
    80
  • 数据库查询数据特别慢,该如何处理_如何解决数据库查询慢的问题

    数据库查询数据特别慢,该如何处理_如何解决数据库查询慢的问题导读: 作者:知数堂学员-邓志航;MySQL DBA,天生的MySQL爱好者,热衷于为他人解决问题,善于总结和分享。对数据平台构建和排查疑难问题有非常浓厚的兴趣 一、简介 记一次mysql流量问题的…

    2023-02-10
    138
  • 基于PaddleOCR的文本识别技术研究与应用

    基于PaddleOCR的文本识别技术研究与应用 随着人工智能的发展,文本识别技术在各行业中得到了越来越广泛的应用。而近年来,随着深度学习技术的逐步成熟,基于深度学习的文本识别技术也得到了快速发展。本文将介绍如何使用PaddleOCR这一库来进行文本识别,并针对不同的应用场景进行实践与验证。

    2024-07-09
    46
  • TidB测试_TiDB

    TidB测试_TiDB分享嘉宾:张建 PingCAP TiDB优化器与执行引擎技术负责人 编辑整理:Druid中国用户组第6次大数据MeetUp 出品平台:DataFunTalk 导读: 本次报告张老师主要从原理上带大家深

    2023-05-13
    132
  • 如何安装Flask

    如何安装FlaskemFlask是一种轻量级的Web应用程序框架,它基于Python的Werkzeug工具包和Jinja2模板引擎构建。它易于学习和扩展,是一个受欢迎的选择,用于构建Web应用程序和API。/em

    2024-05-15
    64
  • 如何查看Python版本号

    如何查看Python版本号在使用Python进行编程的时候,我们需要经常查看Python版本号,确定系统内安装的Python版本是否符合我们的需求。然而,有时候我们并不知道如何查看Python的版本号。接下来,我们将从多个方面阐述如何查看Python版本号。

    2024-09-06
    22
  • MySQL DBA如何”土土”地利用源码解决没有遇到过的错误?[通俗易懂]

    MySQL DBA如何”土土”地利用源码解决没有遇到过的错误?[通俗易懂]本篇文章记录的是遇到一个未知错误的排查过程,由于本人水平有限,如有描述不正确的欢迎指正。 问题描述 开发报错 MySQL error code 1615 (ER_NEED_REPREPARE): P…

    2023-01-27
    181

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注