关于hive分区,你知道多少呢?[通俗易懂]

关于hive分区,你知道多少呢?[通俗易懂]​ 文末查看关键字,回复赠书 一、理论基础 1.Hive分区背景 在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入

关于hive分区,你知道多少呢?


文末查看关键字,回复赠书

一、理论基础

1.Hive分区背景

在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。

2.Hive分区实质

因为Hive实际是存储在HDFS上的抽象,Hive的一个分区名对应hdfs的一个目录名,并不是一个实际字段。

3.Hive分区的意义

辅助查询,缩小查询范围,加快数据的检索速度和对数据按照一定的规格和条件进行查询,更方便数据管理。

4.常见的分区技术

hive表中的数据一般按照时间、地域、类别等维度进行分区。

二、单分区操作

1.创建分区表

create table if not exists t1(
    id      int
   ,name    string
   ,hobby   array
   ,add     map
)
partitioned by (pt_d string)
row format delimited
fields terminated by ","
collection items terminated by "-"
map keys terminated by ":"
;

注:这里分区字段不能和表中的字段重复。
如果分区字段和表中字段相同的话,会报错,如下:

create table t10(
    id      int
   ,name    string
   ,hobby   array<string>
   ,add     maptring,string>
)
partitioned by (id int)
row format delimited
fields terminated by ","
collection items terminated by "-"
map keys terminated by ":"
;

报错信息:FAILED: SemanticException [Error 10035]: Column repeated in partitioning columns
报错信息

2.装载数据

需要加载的文件内容如下:

1,xiaoming,book-TV-code,beijing:chaoyang-shagnhai:pudong
2,lilei,book-code,nanjing:jiangning-taiwan:taibei
3,lihua,music-book,heilongjiang:haerbin

执行load data

load data local inpath "/home/hadoop/Desktop/data" overwrite into table t1 partition ( pt_d = "201701");

3.查看数据及分区

查看分区数据,使用和字段使用一致。

select * from t1 where pt_d = "201701";

结果

1   xiaoming    ["book","TV","code"]    {"beijing":"chaoyang","shagnhai":"pudong"}  201701
2   lilei   ["book","code"] {"nanjing":"jiangning","taiwan":"taibei"}   201701
3   lihua   ["music","book"]    {"heilongjiang":"haerbin"}  201701

查看分区

show partitions t1;

4.插入另一个分区

再创建一份数据并装载,分区=‘000000’

load data local inpath "/home/hadoop/Desktop/data" overwrite into table t1 partition ( pt_d = "000000");

查看数据:

select * from t1;
1   xiaoming    ["book","TV","code"]    {"beijing":"chaoyang","shagnhai":"pudong"}  000000
2   lilei   ["book","code"] {"nanjing":"jiangning","taiwan":"taibei"}   000000
3   lihua   ["music","book"]    {"heilongjiang":"haerbin"}  000000
1   xiaoming    ["book","TV","code"]    {"beijing":"chaoyang","shagnhai":"pudong"}  201701
2   lilei   ["book","code"] {"nanjing":"jiangning","taiwan":"taibei"}   201701
3   lihua   ["music","book"]    {"heilongjiang":"haerbin"}  201701

5.观察HDFS上的文件

去hdfs上看文件

http://namenode:50070/explorer.html#/user/hive/warehouse/test.db/t1

可以看到,文件是根据分区分别存储,增加一个分区就是一个文件。
关于hive分区,你知道多少呢?[通俗易懂]

查询相应分区的数据

select * from t1 where pt_d = ‘000000’

添加分区,增加一个分区文件

alter table t1 add partition (pt_d = ‘333333’);

关于hive分区,你知道多少呢?[通俗易懂]

删除分区(删除相应分区文件)

注意,对于外表进行drop partition并不会删除hdfs上的文件,并且通过msck repair table table_name可以同步回hdfs上的分区。

alter table test1 drop partition (pt_d = ‘20170101’);

三、多个分区操作

1.创建分区表​​​​​​​

create table t10(
    id      int
   ,name    string
   ,hobby   array<string>
   ,add     maptring,string>
)
partitioned by (pt_d string,sex string)
row format delimited
fields terminated by ","
collection items terminated by "-"
map keys terminated by ":"
;

2.加载数据(分区字段必须都要加)

load data local inpath ‘/home/hadoop/Desktop/data’ overwrite into table t10 partition ( pt_d = ‘0’);

如果只是添加一个,会报错:FAILED: SemanticException [Error 10006]: Line 1:88 Partition not found ”0”​​​​​​​

load data local inpath "/home/hadoop/Desktop/data" overwrite into table t10 partition ( pt_d = "0",sex="male");
load data local inpath "/home/hadoop/Desktop/data" overwrite into table t10 partition ( pt_d = "0",sex="female");

观察HDFS上的文件,可发现多个分区具有顺序性,可以理解为windows的树状文件夹结构。
关于hive分区,你知道多少呢?[通俗易懂]
关于hive分区,你知道多少呢?[通俗易懂]

四、表分区的增删修查
1.增加分区
这里我们创建一个分区外部表​​​​​​​

create external table testljb (
    id int
) partitioned by (age int);

添加分区

官网说明:​​​​​​​

ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec [LOCATION "location"][, PARTITION partition_spec [LOCATION "location"], ...];

partition_spec:
  : (partition_column = partition_col_value, partition_column = partition_col_value, ...)

实例说明

  • 一次增加一个分区
alter table testljb add partition (age=2);
  • 一次增加多个同级(分区名相同)分区
alter table testljb add partition(age=3) partition(age=4);
  • 注意:一定不能写成如下方式:
alter table testljb add partition(age=5,age=6);

如果我们show partitions table_name 会发现仅仅添加了age=6的分区。
关于hive分区,你知道多少呢?[通俗易懂]

这里猜测原因:因为这种写法实际上:具有多个分区字段表的分区添加,而我们写两次同一个字段,而系统中并没有两个age分区字段,那么就会随机添加其中一个分区。

父子级分区增加:

举个例子,有个表具有两个分区字段:age分区和sex分区。那么我们添加一个age分区为1,sex分区为male的数据,可以这样添加:

alter table testljb add partition(age=1,sex="male");

2.删除分区

删除分区age=1

alter table testljb drop partition(age=1);

注:加入表testljb有两个分区字段(上文已经提到多个分区先后顺序类似于windows的文件夹的树状结构),partitioned by(age int ,sex string),那么我们删除age分区(第一个分区)时,会把该分区及其下面包含的所有sex分区一起删掉。

3.修复分区

修复分区就是重新同步hdfs上的分区信息。

msck repair table table_name;

4.查询分区

show partitions table_name;

上一篇:数据仓库与数据集市建模

下期预告:hive的动态分区与静态分区

按例,我的个人公众号:鲁边社,欢迎关注
关于hive分区,你知道多少呢?[通俗易懂]

后台回复关键字 [hive],随机赠送一本鲁边备注版珍藏大数据书籍。

原文地址:https://www.cnblogs.com/lubians/archive/2022/08/02/16543497.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/4932.html

(0)
上一篇 2023-05-29 20:30
下一篇 2023-05-30 10:30

相关推荐

  • 如何通过Oracle实现自动发邮件功能

    如何通过Oracle实现自动发邮件功能在内网项目、外网项目中多有 需要自动监控发邮件提醒的功能,因为邮件功能最便捷、便宜、不用开接口,不用接口费用。现 提供 我在一个内网项目中的使用案例: 案例背景: 在有限的资源下,能够自动给下级单位发

    2022-12-28
    129
  • Python变量定义

    Python变量定义在编程语言中,变量是存储数据的容器。它们可以存储各种类型的数据,例如字符串、数字、布尔值等等。变量名在程序中是唯一的,您可以指定任意变量名,但是要确保它们没有使用过,且易于理解。换句话说,您可以将变量视为程序中的一个标签,用于告诉计算机在执行代码时在哪里找到数据。

    2024-08-15
    27
  • redis中hash数据类型[通俗易懂]

    redis中hash数据类型[通俗易懂]website相当于map的名字 google相当于map website中的key,"www.google.com"是key google的value

    2023-01-26
    152
  • Python中的is 9.0操作符:用于检查对象是否为同一个内存地址

    Python中的is 9.0操作符:用于检查对象是否为同一个内存地址Python中的is操作符可以用于检查两个对象是否指向同一块内存空间。is操作符的作用是比较两个对象在内存中的地址是否相同,而不是比较它们的值是否相等。因此,is操作符比==操作符更为严格。

    2024-01-21
    101
  • TDSQL MySQL索引分类,90%的开发都不知道「终于解决」

    TDSQL MySQL索引分类,90%的开发都不知道「终于解决」TDSQL MySQL的索引分类问题一直让人头疼,几乎所有的资料都会给你列一个长长的清单,给你介绍什么主键索引、单值索引,覆盖索引,自适应哈希索引,全文索引,聚簇索引,非聚簇索引等……给人的感觉就是云

    2023-04-20
    143
  • Python实战|利用Dowhy框架实现因果推断实战(二)「建议收藏」

    Python实战|利用Dowhy框架实现因果推断实战(二)「建议收藏」文章来源:gzh数据万花筒 文章链接:https://mp.weixin.qq.com/s/7uBQ3_sR2j_zxH8mj7nKeQ 点击上方蓝字关注我们 因果推断系列文章分为上下两篇,目录结构如

    2023-04-16
    168
  • oracle 数据库用户权限_oracle 用户权限

    oracle 数据库用户权限_oracle 用户权限概念:https://docs.oracle.com/en/database/oracle/oracle-database/19/cncpt/introduction-to-oracle-datab…

    2023-04-21
    153
  • Python Default Set:优雅、高效的数据结构实现

    Python Default Set:优雅、高效的数据结构实现Python的Set是一个非常有用且常用的数据结构,它是Python中的一种无序可变容器类型,用于存储不重复的元素。在使用Set时,我们无需关心元素的顺序,而只需要知道元素是否存在。Python的Set的底层数据结构采用的是哈希表实现,可以快速的进行元素的查询、插入和删除等操作。

    2024-01-16
    101

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注