【Hive】Hive分区表

2023-11-17

分区作为一种提高数据操作灵活性的手段，被广泛应用于关系型数据库中。在Hive中我们同样可以采用分区的方式来提高数据操作效率，不同于关系型数据库（如Oracle），Hive的分区表既可以是内部表，也可以是外部表。
本篇文章主要介绍如何在Hive中创建分区表、分区表上的DDL操作，以及使用分区表的注意事项。

1. 创建分区表

1.1 创建内部分区表

create table myhive.test_internal(id int) partitioned by (date string) 
row format delimited fields terminated by ' ';

1.2 创建外部分区表

create external table myhive.test_external(id int) partitioned by (date string)
row format delimited fields terminated by ' ';

2. 添加分区

内部分区表和外部分区表都可以使用如下2种方式添加分区：
（1）ALTER TABLE … ADD PARTITION …
（2）MSCK REPAIR TABLE …

2.1 内部分区表添加分区

#创建分区目录
hdfs dfs -mkdir -p /user/hive/warehouse/myhive.db/test_internal/date=2020-01-01
hdfs dfs -mkdir -p /user/hive/warehouse/myhive.db/test_internal/date=2020-01-15
hdfs dfs -mkdir -p /user/hive/warehouse/myhive.db/test_internal/date=2020-01-20

#上传分区对应文件
hdfs dfs -put 2020-01-01.txt /user/hive/warehouse/myhive.db/test_internal/date=2020-01-01/
hdfs dfs -put 2020-01-15.txt /user/hive/warehouse/myhive.db/test_internal/date=2020-01-15/  
hdfs dfs -put 2020-01-20.txt /user/hive/warehouse/myhive.db/test_internal/date=2020-01-20/

#查看分区为空
hive (myhive)> show partitions test_internal;
OK
partition
Time taken: 0.096 seconds

#ADD PARTITION方式添加分区
hive (myhive)> alter table test_internal add partition (date='2020-01-01');
OK
Time taken: 0.14 seconds

#查看添加后结果，有一个分区（date='2020-01-01'）
hive (myhive)> show partitions test_internal;
OK
partition
date=2020-01-01
Time taken: 0.097 seconds, Fetched: 1 row(s)

#查询添加分区后的表数据
hive (myhive)> select * from test_internal;
OK
test_internal.id        test_internal.date
1       2020-01-01
Time taken: 0.104 seconds, Fetched: 1 row(s)

#MSCK REPAIR方式添加分区
hive (myhive)> msck repair table test_internal;
OK
Partitions not in metastore:    test_internal:date=2020-01-15   test_internal:date=2020-01-20
Repair: Added partition to metastore test_internal:date=2020-01-15
Repair: Added partition to metastore test_internal:date=2020-01-20
Time taken: 0.241 seconds, Fetched: 3 row(s)

#查看添加后结果，分区全部添加进来了
hive (myhive)> show partitions test_internal;
OK
partition
date=2020-01-01
date=2020-01-15
date=2020-01-20
Time taken: 0.091 seconds, Fetched: 3 row(s)

#查询添加分区后的表数据
hive (myhive)> select * from test_internal;
OK
test_internal.id        test_internal.date
1       2020-01-01
2       2020-01-15
3       2020-01-20
Time taken: 0.104 seconds, Fetched: 3 row(s)

2.2 外部分区表添加分区

#创建目录
hdfs dfs -mkdir -p /user/hive/warehouse/myhive.db/test_external/date=2020-01-01
hdfs dfs -mkdir -p /user/hive/warehouse/myhive.db/test_external/date=2020-01-15
hdfs dfs -mkdir -p /user/hive/warehouse/myhive.db/test_external/date=2020-01-20

#上传文件
hdfs dfs -put 2020-01-01.txt /user/hive/warehouse/myhive.db/test_external/date=2020-01-01/
hdfs dfs -put 2020-01-15.txt /user/hive/warehouse/myhive.db/test_external/date=2020-01-15/  
hdfs dfs -put 2020-01-20.txt /user/hive/warehouse/myhive.db/test_external/date=2020-01-20/

#查看分区为空
hive (myhive)> show partitions test_external;
OK
partition
Time taken: 0.093 seconds

#ADD PARTITION方式添加分区
hive (myhive)> alter table test_external add partition (date='2020-01-01');
OK
Time taken: 0.14 seconds

#查看添加后结果，有一个分区（date='2020-01-01'）
hive (myhive)> show partitions test_external;
OK
partition
date=2020-01-01
Time taken: 0.082 seconds, Fetched: 1 row(s)

#查询添加分区后的表数据
hive (myhive)> select * from test_external;
OK
test_external.id        test_external.date
1       2020-01-01
Time taken: 0.108 seconds, Fetched: 1 row(s)

#MSCK REPAIR方式添加分区
hive (myhive)> msck repair table test_external;
OK
Partitions not in metastore:    test_external:date=2020-01-15   test_external:date=2020-01-20
Repair: Added partition to metastore test_external:date=2020-01-15
Repair: Added partition to metastore test_external:date=2020-01-20
Time taken: 0.198 seconds, Fetched: 3 row(s)

#查看添加后结果，分区全部添加进来了
hive (myhive)> show partitions test_external;
OK
partition
date=2020-01-01
date=2020-01-15
date=2020-01-20
Time taken: 0.081 seconds, Fetched: 3 row(s)

#查询添加分区后的表数据
hive (myhive)> select * from test_external;
OK
test_external.id        test_external.date
1       2020-01-01
2       2020-01-15
3       2020-01-20
Time taken: 0.098 seconds, Fetched: 3 row(s)

3. 重命名分区

内部分区表和外部分区表都使用RENAME TO PARTITION命令重命名分区，以内部分区表为例：

alter table myhive.test_internal partition (date='2020-01-15') rename to partition (date='2020-01-16');

4. 删除分区

内部分区表和外部分区表都使用DROP PARTITION命令删除分区，以内部分区表为例：

alter table myhive.test_internal drop partition (date='2020-01-01');

5. 分区表的注意事项

（1）应选择低基数列作为分区键；
（2）尽量避免分区过小，建议大于1G；

总结

Hive中的一个分区就是一个目录，分区键值就是目录名称，分区键是表中的一个虚拟列；
当数据量过大时可采用分区表提高查询效率；
需谨慎选择分区键，尽量选用低基数列；
ADD PARTITION需要指定分区键值，MSCK REPAIR可以批量创建分区和数据文件的映射；

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

hive

Hive分区表

【Hive】Hive分区表的相关文章

如何在 Hive 中将字符串转换为毫秒时间戳

我有一个字符串 20141014123456789 它代表一个毫秒时间戳我需要将其转换为 Hive 中的时间戳 0 13 0 而不丢失毫秒我尝试了这个但 unix timestamp 返回一个整数所以我丢失了毫秒 from unix
hive中每行的百分比计算

我在配置单元中有一个具有以下架构的表差值 int 计数值 int 值为 5 2 30 1 90 1 100 1 现在我想找到每个 count value 与 count value 总和的百分比每行的值类似于 count value s
如何在 hive 中创建一个空的结构数组？

我有一个观点Hive 1 1 0 根据条件它应该返回一个空数组或一个数组struct
在 Hive 中分解一行 XML 数据

我们将 XML 数据作为名为 XML 的单个字符串列加载到 Hadoop 中我们正在尝试检索数据级别并将其标准化或分解为单行进行处理你知道就像表格一样已经尝试过分解功能但没有得到我们想要的示例 XML
使用 python 从 hive 读取数据时的性能问题

我在 hive 中有一个表其中包含 351 837 110 MB 大小记录我正在使用 python 读取该表并写入 sql server 在此过程中从 hive 读取数据到 pandas dataframe 需要很长时间当我加载整
hive查询无法通过jdbc生成结果集

我是 Hive 和 Hadoop 的新手在我的教程中我想将表创建为 import java sql SQLException import java sql Connection import java sql ResultSet im
计算行的排名

我想根据一个字段对用户 ID 进行排名对于相同的字段值排名应该相同该数据位于 Hive 表中 e g user value a 5 b 10 c 5 d 6 Rank a 1 c 1 d 3 b 4 我怎样才能做到这一点可以使用ra
消息：Hive 架构版本 1.2.0 与 Metastore 的架构版本 2.1.0 不匹配 Metastore 未升级或损坏

环境 spark2 11 hive2 2 hadoop2 8 2 hive shell 运行成功并且没有错误或警告但是当运行application sh时启动失败 usr local spark bin spark submit cl
通过 hive 访问 maxmind 的 GeoIP-country.mmdb 数据库时出现异常

我有一个自定义 Hive UDF 来访问 MaxmindGeoIP 国家 mmdb通过 add file pqr mmdb 添加到 Hive 资源的数据库编译好的 UDF 添加为 add jar abc jar 当我运行 hive 查询时
在 Hive 中获取数据的交集

我在配置单元中有以下数据 userid cityid 1 15 2 15 1 7 3 15 2 8 3 9 3 7 我只想保留具有 cityid 15 和 cityid 7 的用户 ID 在我的示例中它将是用户 ID 1 和 3 我试过
Hive - 线程安全的自动递增序列号生成

我遇到一种情况需要将记录插入到特定的 Hive 表中其中一列需要是自动递增的序列号即在任何时间点都必须严格遵循 max value 1 规则记录从许多并行的 Hive 作业插入到这个特定的表中这些作业每天每周每月批量运行现在
如何创建 HIVE 表来读取分号分隔值

我想创建一个 HIVE 表该表将以分号分隔的值读取但我的代码不断给出错误有没有人有什么建议 CREATE TABLE test details Time STRING Vital STRING sID STRING PARTITION
<问题> Hive 中的浮点数据类型

初始化数据 CREATE TABLE test test data user VARCHAR 10 amount FLOAT TBLPROPERTIES transactional true INSERT INTO test test da
使用 impala 按范围连接表的有效方法

我第一个有下表 Range 包括值范围和附加列 row From To Country 1 1200 1500 2 2200 2700 3 1700 1900 4 2100 2150 The From and Toare bigint并且是
如何按行扩展数组值！！使用 Hive SQL

我有一个有 4 列的表其中一列项目类型是 ARRAY 其他是字符串 ID items name loc id1 item1 item2 item3 item4 item5 Mike CT id2 item3 item7 item4 i
无法验证 serde：org.openx.data.jsonserde.jsonserde

我编写了这个查询来在配置单元上创建一个表我的数据最初是 json 格式所以我已经下载并构建了 serde 并添加了它运行所需的所有 jar 但我收到以下错误 FAILED Execution Error return code 1 fr
Spark on Hive SQL 查询错误 NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT

针对 Hive 2 1 0 提交 Spark 1 6 0 SQL 应用程序时出现错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT a
Spark引擎执行SQL时如何获取hive UDF中Spark的partitionId或taskContext？

例如我们用Spark引擎执行下面的SQL 我们需要my udf row 返回 Spark 中的分区 id add jar hdfs dir udf udf jar create temporary function my udf as co
是否可以通过编写单独的mapreduce程序并行执行Hive查询？

我问了一些关于提高 Hive 查询性能的问题一些答案与映射器和减速器的数量有关我尝试使用多个映射器和减速器但在执行中没有看到任何差异不知道为什么可能是我没有以正确的方式做或者我错过了其他东西我想知道是否可以并行执行 Hive
将数据从 .txt 文件加载到 Hive 中以 ORC 形式存储的表

我有一个数据文件位于 txt格式我正在使用该文件将数据加载到 Hive 表中当我将文件加载到类似表中时 CREATE TABLE test details txt visit id INT store id SMALLINT STORE

随机推荐

谷歌Chrome浏览器安装插件Hackerbar

谷歌Chrome浏览器安装插件Hackerbar 因为google浏览器的应用市场 https chrome google com webstore category extensions 在国内无法访问所以无法在线安装插件这里提供开发
刷脸和无感支付是社会科学发展的产物和动力

手机支付不应该多过而且有自动与支付余额联机刷手机才是赚钱的出路对比来看手机支付操作简单但基础好有相当多用户加入的话就没有任何风险了自动与支付余额联机有效而对于支付余额联机更有效但比安全性较低不利于用户操作而对于与银行合
python打包whl文件

应用场景在python的使用过程中当遇到通过pip无法安装包可以通过去Python安装包大全中 whl包下载下载 whl 包来安装解决问题也可以在别处打包成 whl 文件拷贝过来运行介绍 whl 文件是以 wheel 格式保存
PySerial：Python串口通信库的详细介绍、安装及使用方法攻略

PySerial Python串口通信库的详细介绍安装及使用方法攻略一 PySerial 简介 PySerial 是 Python 的一个串口通信库支持不同平台下的串口操作在 Python 应用中使用 PySerial 可以非常方
《Programming in Lua 3》读书笔记(七)

Compilation Executioin and Errors Lua的assert函数 assert v mess 相当于C的断言当v为nil或者false将触发错误 mess为发生错误时返回的信息 dofile函数不仅会加载chu
蓝桥杯中的阶乘（求1000的阶乘）

首先这个题它是求1000的阶乘他最后的值太大了以至于不能用int long long int 来求那要怎求呢那肯定是用最简单的数组来求鸭用数组来代表它的每一个位 include
如何判断链表有环

如何判断单链表是否存在环有一个单向链表链表当中有可能出现环就像题图这样如何用程序判断出这个链表是有环链表不允许修改链表结构时间复杂度O n 空间复杂度O 1 方法一穷举遍历方法一首先从头节点开始依次遍历单链表的每一个节
网关模式/网桥模式/旁路模式的区别

网关模式网桥模式旁路模式的区别如下 EG设备有三种工作模式网关模式网桥模式和旁路模式比较常用的是网关模式和桥模式 1 网关模式是把设备当作网络出口支持NAT和路由选路下报文转发的部署方式 2 桥模式是把设备作为桥接串接在内网
【SqlServer】如何把本地SqlServer数据库部署到远程服务器上

这里笔者使用的使用SqlServer2012 本机和远程环境均为Win7 1 选中需要部署的数据库右击任务分离选中删除连接 2 现在在左侧的表中就看不见刚才那个数据了 3 在本地找到分离出来的数据库的位置该位置就是读者建立数据库的
厌烦了Ctrl+CV ？试试用node自动生成重复代码文件

前言相信在我们日常遇到的项目中无论是在前端网站还是后台管理系统中都会有功能类似的页面我们在开发这些功能类似的页面的时候为了提高效率一般都会运用我们的CV大法但是当我们CV久了之后会不会觉得这样的开发方式有些许枯燥我们能不能通
孙子算经之物不知数（韩信点兵）

孙子算经作者不可考成书于四五世纪南北朝时期传本分三卷它是算经十书之一中国古代最重要的数学著作之一其下卷26题物不知数为其最重要的成就之一今有物不知其数三三数之剩二五五数之剩三七七数之剩二问物几何答曰
解决下载文件时报：Could not find acceptable representation

今天在写一个文件打包下载的接口的时候一直报错误文件是可以下载的但是后台打印的日志信息出现 Could not find acceptable representation错误我之前百度给我的结果是由于我的返回值是json字符串而由于
STM32F1各个工作状态下的工作电流

低功耗操作实验文章非原创从其他网站上摘录如果侵犯到到麻烦联系删除实验目的测量 STM32 在各种状态下的功耗包括在不同时钟频率下 32M 8M 1M 100K 10K 不同振荡器内部外部不同模式活动睡眠停机待机
经纬度查询_查询经纬度并自动转换格式(升级版)附带下载

链接 https pan baidu com s 1Ysjwdu9griOXzw50RvfF1A 提取码 iwvv 链接 https share weiyun com 8ECyYM8g 密码 bwqmk8 1 史上最齐全的CAD下载资源 2
二进制方式部署kubernetes集群

二进制方式部署kubernetes集群 1 部署k8s常见的几种方式 1 1 kubeadm Kubeadm 是一个 k8s 部署工具提供 kubeadm init 和 kubeadm join 用于快速部署 Kubernetes 集群
[python]多线程socket端口探测(包含top50-1000)

这个脚本是基于tcp的以下链接是基于tcp udp的自动切换的脚本比这个脚本方便多了实现UDP TCP的多线程端口探测包含TOP 50 1000 sGanYu的博客 CSDN博客多线程扫描工具 import optparse im
数学建模常用的四大模型

目录 1 评价模型 2 优化模型 3 分类模型 4 预测模型本文主要介绍数学建模的四大模型分类分别是评价模型优化模型分类模型预测模型关注公众号数模乐园回复买获得更多数模教程 1 评价模型评价模型可以处理难于完全定量分析
ftp服务器查看所有文件夹,查看ftp服务器所有文件夹

查看ftp服务器所有文件夹内容精选换一换对于本文档的应用示例查看 HOME tools projects Custom Engine main cpp中所需输入数据如下所示 ASIC场景以root用户登录Host侧服务器在 ho
R大数定律(Python切比雪夫不等式验证大数定律)模拟圆周率

大数定律在概率论中大数定律 LLN 是描述大量执行相同实验的结果的定理根据规律大量试验所得结果的平均值应接近预期值并随着试验次数的增加而趋于接近预期值 LLN 很重要因为它保证了一些随机事件的平均值的长期稳定结果例如虽然赌场
【Hive】Hive分区表

分区作为一种提高数据操作灵活性的手段被广泛应用于关系型数据库中在Hive中我们同样可以采用分区的方式来提高数据操作效率不同于关系型数据库如Oracle Hive的分区表既可以是内部表也可以是外部表本篇文章主要介绍如何在Hive中