Hive 系列(四)—— Hive 常用 DDL 操作

2023-05-16

一、Database

1.1 查看数据列表

show databases;

1.2 使用数据库

USE database_name;

1.3 新建数据库

语法:

CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name   --DATABASE|SCHEMA 是等价的
  [COMMENT database_comment] --数据库注释
  [LOCATION hdfs_path] --存储在 HDFS 上的位置
  [WITH DBPROPERTIES (property_name=property_value, ...)]; --指定额外属性

示例:

CREATE DATABASE IF NOT EXISTS hive_test
  COMMENT 'hive database for test'
  WITH DBPROPERTIES ('create'='heibaiying');

1.4 查看数据库信息

语法:

DESC DATABASE [EXTENDED] db_name; --EXTENDED 表示是否显示额外属性

示例:

DESC DATABASE  EXTENDED hive_test;

1.5 删除数据库

语法:

DROP (DATABASE|SCHEMA) [IF EXISTS] database_name [RESTRICT|CASCADE];
  • 默认行为是 RESTRICT,如果数据库中存在表则删除失败。要想删除库及其中的表,可以使用 CASCADE 级联删除。

示例:

  DROP DATABASE IF EXISTS hive_test CASCADE;

二、创建表

2.1 建表语法

CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name     --表名
  [(col_name data_type [COMMENT col_comment],
    ... [constraint_specification])]  --列名 列数据类型
  [COMMENT table_comment]   --表描述
  [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]  --分区表分区规则
  [
    CLUSTERED BY (col_name, col_name, ...) 
   [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS
  ]  --分桶表分桶规则
  [SKEWED BY (col_name, col_name, ...) ON ((col_value, col_value, ...), (col_value, col_value, ...), ...)  
   [STORED AS DIRECTORIES] 
  ]  --指定倾斜列和值
  [
   [ROW FORMAT row_format]    
   [STORED AS file_format]
     | STORED BY 'storage.handler.class.name' [WITH SERDEPROPERTIES (...)]  
  ]  -- 指定行分隔符、存储文件格式或采用自定义存储格式
  [LOCATION hdfs_path]  -- 指定表的存储位置
  [TBLPROPERTIES (property_name=property_value, ...)]  --指定表的属性
  [AS select_statement];   --从查询结果创建表

2.2 内部表

  CREATE TABLE emp(
    empno INT,
    ename STRING,
    job STRING,
    mgr INT,
    hiredate TIMESTAMP,
    sal DECIMAL(7,2),
    comm DECIMAL(7,2),
    deptno INT)
    ROW FORMAT DELIMITED FIELDS TERMINATED BY "\t";

2.3 外部表

  CREATE EXTERNAL TABLE emp_external(
    empno INT,
    ename STRING,
    job STRING,
    mgr INT,
    hiredate TIMESTAMP,
    sal DECIMAL(7,2),
    comm DECIMAL(7,2),
    deptno INT)
    ROW FORMAT DELIMITED FIELDS TERMINATED BY "\t"
    LOCATION '/hive/emp_external';

使用 desc format emp_external 命令可以查看表的详细信息如下:

2.4 分区表

  CREATE EXTERNAL TABLE emp_partition(
    empno INT,
    ename STRING,
    job STRING,
    mgr INT,
    hiredate TIMESTAMP,
    sal DECIMAL(7,2),
    comm DECIMAL(7,2)
    )
    PARTITIONED BY (deptno INT)   -- 按照部门编号进行分区
    ROW FORMAT DELIMITED FIELDS TERMINATED BY "\t"
    LOCATION '/hive/emp_partition';

2.5 分桶表

  CREATE EXTERNAL TABLE emp_bucket(
    empno INT,
    ename STRING,
    job STRING,
    mgr INT,
    hiredate TIMESTAMP,
    sal DECIMAL(7,2),
    comm DECIMAL(7,2),
    deptno INT)
    CLUSTERED BY(empno) SORTED BY(empno ASC) INTO 4 BUCKETS  --按照员工编号散列到四个 bucket 中
    ROW FORMAT DELIMITED FIELDS TERMINATED BY "\t"
    LOCATION '/hive/emp_bucket';

2.6 倾斜表

通过指定一个或者多个列经常出现的值(严重偏斜),Hive 会自动将涉及到这些值的数据拆分为单独的文件。在查询时,如果涉及到倾斜值,它就直接从独立文件中获取数据,而不是扫描所有文件,这使得性能得到提升。

  CREATE EXTERNAL TABLE emp_skewed(
    empno INT,
    ename STRING,
    job STRING,
    mgr INT,
    hiredate TIMESTAMP,
    sal DECIMAL(7,2),
    comm DECIMAL(7,2)
    )
    SKEWED BY (empno) ON (66,88,100)  --指定 empno 的倾斜值 66,88,100
    ROW FORMAT DELIMITED FIELDS TERMINATED BY "\t"
    LOCATION '/hive/emp_skewed';   

2.7 临时表

临时表仅对当前 session 可见,临时表的数据将存储在用户的暂存目录中,并在会话结束后删除。如果临时表与永久表表名相同,则对该表名的任何引用都将解析为临时表,而不是永久表。临时表还具有以下两个限制:

  • 不支持分区列;
  • 不支持创建索引。
  CREATE TEMPORARY TABLE emp_temp(
    empno INT,
    ename STRING,
    job STRING,
    mgr INT,
    hiredate TIMESTAMP,
    sal DECIMAL(7,2),
    comm DECIMAL(7,2)
    )
    ROW FORMAT DELIMITED FIELDS TERMINATED BY "\t";

2.8 CTAS创建表

支持从查询语句的结果创建表:

CREATE TABLE emp_copy AS SELECT * FROM emp WHERE deptno='20';

2.9 复制表结构

语法:

CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name  --创建表表名
   LIKE existing_table_or_view_name  --被复制表的表名
   [LOCATION hdfs_path]; --存储位置

示例:

CREATE TEMPORARY EXTERNAL TABLE  IF NOT EXISTS  emp_co  LIKE emp

2.10 加载数据到表

加载数据到表中属于 DML 操作,这里为了方便大家测试,先简单介绍一下加载本地数据到表中:

-- 加载数据到 emp 表中
load data local inpath "/usr/file/emp.txt" into table emp;

其中 emp.txt 的内容如下,你可以直接复制使用,也可以到本仓库的resources 目录下载:

7369    SMITH   CLERK   7902    1980-12-17 00:00:00 800.00      20
7499    ALLEN   SALESMAN    7698    1981-02-20 00:00:00 1600.00 300.00  30
7521    WARD    SALESMAN    7698    1981-02-22 00:00:00 1250.00 500.00  30
7566    JONES   MANAGER 7839    1981-04-02 00:00:00 2975.00     20
7654    MARTIN  SALESMAN    7698    1981-09-28 00:00:00 1250.00 1400.00 30
7698    BLAKE   MANAGER 7839    1981-05-01 00:00:00 2850.00     30
7782    CLARK   MANAGER 7839    1981-06-09 00:00:00 2450.00     10
7788    SCOTT   ANALYST 7566    1987-04-19 00:00:00 1500.00     20
7839    KING    PRESIDENT       1981-11-17 00:00:00 5000.00     10
7844    TURNER  SALESMAN    7698    1981-09-08 00:00:00 1500.00 0.00    30
7876    ADAMS   CLERK   7788    1987-05-23 00:00:00 1100.00     20
7900    JAMES   CLERK   7698    1981-12-03 00:00:00 950.00      30
7902    FORD    ANALYST 7566    1981-12-03 00:00:00 3000.00     20
7934    MILLER  CLERK   7782    1982-01-23 00:00:00 1300.00     10

加载后可查询表中数据:

三、修改表

3.1 重命名表

语法:

ALTER TABLE table_name RENAME TO new_table_name;

示例:

ALTER TABLE emp_temp RENAME TO new_emp; --把 emp_temp 表重命名为 new_emp

3.2 修改列

语法:

ALTER TABLE table_name [PARTITION partition_spec] CHANGE [COLUMN] col_old_name col_new_name column_type
  [COMMENT col_comment] [FIRST|AFTER column_name] [CASCADE|RESTRICT];

示例:

-- 修改字段名和类型
ALTER TABLE emp_temp CHANGE empno empno_new INT;
 
-- 修改字段 sal 的名称 并将其放置到 empno 字段后
ALTER TABLE emp_temp CHANGE sal sal_new decimal(7,2)  AFTER ename;

-- 为字段增加注释
ALTER TABLE emp_temp CHANGE mgr mgr_new INT COMMENT 'this is column mgr';

3.3 新增列

示例:

ALTER TABLE emp_temp ADD COLUMNS (address STRING COMMENT 'home address');

四、清空表/删除表

4.1 清空表

语法:

-- 清空整个表或表指定分区中的数据
TRUNCATE TABLE table_name [PARTITION (partition_column = partition_col_value,  ...)];
  • 目前只有内部表才能执行 TRUNCATE 操作,外部表执行时会抛出异常 Cannot truncate non-managed table XXXX

示例:

TRUNCATE TABLE emp_mgt_ptn PARTITION (deptno=20);

4.2 删除表

语法:

DROP TABLE [IF EXISTS] table_name [PURGE]; 
  • 内部表:不仅会删除表的元数据,同时会删除 HDFS 上的数据;
  • 外部表:只会删除表的元数据,不会删除 HDFS 上的数据;
  • 删除视图引用的表时,不会给出警告(但视图已经无效了,必须由用户删除或重新创建)。

五、其他命令

5.1 Describe

查看数据库:

DESCRIBE|Desc DATABASE [EXTENDED] db_name;  --EXTENDED 是否显示额外属性

查看表:

DESCRIBE|Desc [EXTENDED|FORMATTED] table_name --FORMATTED 以友好的展现方式查看表详情

5.2 Show

1. 查看数据库列表

-- 语法
SHOW (DATABASES|SCHEMAS) [LIKE 'identifier_with_wildcards'];

-- 示例:
SHOW DATABASES like 'hive*';

LIKE 子句允许使用正则表达式进行过滤,但是 SHOW 语句当中的 LIKE 子句只支持 *(通配符)和 |(条件或)两个符号。例如 employeesemp *emp * | * ees,所有这些都将匹配名为 employees 的数据库。

2. 查看表的列表

-- 语法
SHOW TABLES [IN database_name] ['identifier_with_wildcards'];

-- 示例
SHOW TABLES IN default;

3. 查看视图列表

SHOW VIEWS [IN/FROM database_name] [LIKE 'pattern_with_wildcards'];   --仅支持 Hive 2.2.0 +

4. 查看表的分区列表

SHOW PARTITIONS table_name;

5. 查看表/视图的创建语句

SHOW CREATE TABLE ([db_name.]table_name|view_name);

参考资料

LanguageManual DDL

更多大数据系列文章可以参见 GitHub 开源项目大数据入门指南

转载于:https://www.cnblogs.com/heibaiying/p/11386769.html

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Hive 系列(四)—— Hive 常用 DDL 操作 的相关文章

随机推荐

  • Error Domain=PlugInKit Code=13 打开相册模拟器卡顿

    问题描述 xff1a discovery errors encountered while discovering extensions Error Domain 61 PlugInKit Code 61 13 34 query cance
  • Arch Linux中通过AUR安装Redis Desktop Manager失败

    笔者在安装Redis Desktop Manager时出现了Failed to connect to chromium googlesource com port 443 Connection timed out错误 xff0c 具体见文末
  • 远程linux桌面灰屏,解决配置Ubuntu中vnc远程显示灰屏

    解决配置Ubuntu中vnc远程显示灰屏 a 缺失图形化工具 b vnc xstartup 权限不对 1 Ubuntu 16 04 安装 VNC 及 Mate 桌面环境 https www htcp net 880 html Fluxbox
  • linux客户端连接iscsi,配置ISCSI客户端(LINUX)redhat5-iSCSI-INITIATOR

    ISCSI 4的客户端装上去后会有 etc iscsi conf 配置文件 xff0c 直接按照模板参数修改就可以了 在ISCSI6的客户端配置方式有些变化 xff0c 这让我搞了一下午 xff0c 也参考的51CTO某技术大师的博客 xf
  • 《OVN Logical Flows and ovn-trace》翻译

    在本篇文章中 xff0c 我将解释什么是Logical Flow以及如何使用ovn trace去更好地理解它们 同时 xff0c 我也会用一些例子来解释 xff0c 为什么使用Logical Flow这种抽象模型能让新特性的添加变得出乎意料
  • fluent中UDF环境变量问题的三种解决方法

    方法一 xff1a 这种方式最简便 xff0c 首选这种 xff0c 但是有时会因为不明原因而不好使 xff0c 我自己电脑刚开始用这种方式是行得通的 xff0c 但是后来中途装过很多乱七八糟的软件 xff0c 估计环境变量改乱了 xff0
  • svn status '~'

    svn status 出现 39 39 时 提交会显示错误 xx xx svn 39 containing working copy admin area is missing Item is versioned as one kind o
  • 浏览器缓存原理

    为什么要使用web缓存 xff1f Web缓存存在于服务器和客户端之间 Web缓存密切注视着服务器 客户端之间的通信 xff0c 监控请求 xff0c 并且把请求输出的内容 xff08 例如html页面 图片和文件 xff09 另存一份 x
  • 开发问题记录 - Failed to connect to raw.githubusercontent.com port 443 after 3 ms: Connection refused

    文章目录 前言开发环境问题描述问题分析解决方案总结最后 前言 这是个经常能遇到的问题 xff0c 不管是安装Homebrew还是安装RVM又或者是安装其他的 xff0c 都少不了它 开发环境 macOS 12 6 问题描述 执行命令后的报错
  • ROS CAN总线设备接入(二)can总线数据提取和以ros topic形式发布

    简介 基于前ROS CAN总线设备接入 xff08 一 xff09 xff0c 我们成功实现了对于libpcan库的使用 xff0c 本次将实现对于can总线的初始化以及对于can总线上有效数据提取 xff0c 并将其以topic形式发布到
  • Linux 开启VNCSERVER

    尽管我们可以使用 SSH连接远程通过字符界面来操作Linux xff0c 但是对于更多熟悉图形人来说是很不方便的 xff0c 因此开启Linux的远程桌面还是很有必要的 目前有两种比较流 行的方式 xff1a XDM X display m
  • Maven WAR overlay

    Overlays are used to share common resources across multiple web applications 1 自己项目结构 pom xml 96 src 96 main java 96 com
  • 【K8S学习笔记】Part3:同一Pod中多个容器间使用共享卷进行通信

    本文将展示如何使用共享卷 xff08 Volume xff09 来实现相同Pod中的两个容器间通信 注意 xff1a 本文针对K8S的版本号为v1 9 xff0c 其他版本可能会有少许不同 0x00 准备工作 需要有一个K8S集群 xff0
  • 摄像头PIN脚功能作用

    摄像头PIN脚功能作用 xff0c Camera硬件系统分析 9 f E 43 E2 b N j4 M2 U a q9 A T c amp O amp C x 43 l5 l q lt ignore js op gt 2015 8 19 1
  • mysql数据库基础知识总结

    这里把自己学的mysql数据库的知识总结一下 xff0c 当是给自己复习一遍 xff0c 也是方便以后查询 安装和配置mysql就不说了 xff0c 可以借鉴这位博友的安装过程 https www cnblogs com by330326
  • 软件质量特性及其子特性列表

    软件质量特性及其子特性列表 质量特性 详细 质量子特性 详细 功能性 与一组功能及其指定的性质有关的一组属性 这里的功能是指满足明确或隐含的需求的哪些功能 适合性 与规定任务能否提供一组功能及这组功能的适合程度有关的软件属性 准确性 与能否
  • android ndk开发之 extern "C" 编译出错

    感叹 xff1a 神一般的eclipse xff01 首先 我这么写 extern 34 C 34 void func 代码爆红 xff1a xff08 error expected identifier or before string
  • for(let i in data){}

    let obj 61 o 34 o 34 o1 34 o1 34 span style color 000000 span for let i in obj setTimeout function console log i 转载于 htt
  • flask框架基本使用

    目录 x1f340 前言 x1f340 安装 x1f340 导入 x1f340 Hello World1 flask项目文件目录2 python文件内容示例 x1f340 路由处理 x1f340 配置1 修改app文件名 xff0c 文件夹
  • Hive 系列(四)—— Hive 常用 DDL 操作

    一 Database 1 1 查看数据列表 code show databases code 1 2 使用数据库 code USE database name code 1 3 新建数据库 语法 xff1a code CREATE DATA