大数据单机学习环境搭建(5)Hive建表DDL详解

2023-10-30

专题：大数据单机学习环境搭建和使用

1. Hive建表简单示例
2. Hive建表语法详解
3.拓展1：复杂数据分割
4.拓展2：事务表

1. Hive建表简单示例

1.1.Hive建表语句

DROP TABLE IF EXISTS employee;
CREATE TABLE employee(
	id bigint comment '编号',
	region_id int comment '区域ID',
	name string comment '员工姓名',
	age int comment '年龄',
	shop_price map<string,int> -- 注意map复杂类型
	)
COMMENT '员工基础表'
PARTITIONED BY (dt string)
ROW FORMAT SERDE
'org.apache.hadoop.hive.ql.io.orc.OrcSerde'
STORED AS INPUTFORMAT
'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat'
LOCATION '/data'  -- 一般情况下建议使用默认路径
;

1.2.表详细信息

desc formatted employee;

在这里插入图片描述

1.3.数据展示

存入HDFS的数据如下

2,10,张三,18,洗衣粉:15-西瓜:20-衣架:30
3,5,李四,20,奶粉:300-足球:200-烧烤架:70

数据提交到tmp.employee_org表下，使用insert + select插入employee表中。
tmp.employee_org的建表见拓展1：复杂数据分割

-- orc格式的存储只能insert + select，不能load
INSERT INTO employee PARTITION(dt='2022-04-13') SELECT * FROM caw.employee_org;
-- 查询结果
SELECT * FROM employee;

Hive读取出来的数据如下

+-------+--------------+---------+--------+-------------------------------+-------------+
| s.id  | s.region_id  | s.name  | s.age  |         s.shop_price          |    s.dt     |
+-------+--------------+---------+--------+-------------------------------+-------------+
| 2     | 10           | 张三      | 18     | {"洗衣粉":15,"西瓜":20,"衣架":30}    | 2022-04-13  |
| 3     | 5            | 李四      | 20     | {"奶粉":300,"足球":200,"烧烤架":70}  | 2022-04-13  |
+-------+--------------+---------+--------+-------------------------------+-------------+

2. Hive建表语法详解

尽可能详细的描述了各关键字的作用，下方语句不能直接执行，具体使用要看各部分的注释信息做修改和删减

-- DDL：不涉及表内数据的操作
-- 建表：基本语法 EXTERNAL:外表，不写就是内表（外部表删除时不受控制，删除的只是元数据）
CREATE EXTERNAL TABLE IF NOT EXISTS tmp.test(
-- hive数据类型：原生数据类型：int string	timestamp date 	decimal bigint float等
--				复杂数据类型：array<datatype> \ map<key_type,value_type> \struct<col_name,data_type,..>
-- hive数据类型转换：隐式转换：原生类型从窄类型到宽类型的转换
--					显式转换：cast(id as string)
	id bigint comment '编号',
	region_id int comment '区域ID',
	name string comment '员工姓名',
	age int comment '年龄',
	shop_price map<string,int> -- 注意map复杂类型
	)

-- 以下关键字皆可省略
-- 对表进行说明
COMMENT '员工基础表'

-- SQL优化的重要内容：where指定分区避免全表扫描，这种查询方式叫做分区裁剪
-- 分区可以理解为表下的子文件夹(是目录，不是文件)，并不是真正的把文件分开，逻辑分隔
-- 静态分区和动态分区：由 手动指定 还是 自动推断 来区分
	-- 静态分区：用户指定的分区，写死的，例如dt日期分区
		-- 数据加载到文件中，'hive > '是指load命令在hive客户端执行
		-- hive > load data local inpath '/home/dws_app_data/dws_app_demo_data.txt' overwrite into table dws_app.dws_app_demo_data partition (dt='2022-04-01');
	-- 动态分区：分区字段基于查询结果自动推断出来的，核心语法是insert + select
		-- 使用动态分区需要在hive中设置两个参数（执行在CREATE建表之前）
			-- 开启动态分区
			-- set hive.exec.dynamic.partition=true 
			-- 动态分区模式，nonstrict非严格模式，strict严格模式(至少有一个静态分区)
			-- set hive.exec.dynamic.partition.mode=nonstrict
		-- 分区字段依赖位置，最后的a.region_id被用作分区
		-- insert into table dws_app.dws_app_demo_data partition(region)
		-- select a*, a.region_id from dws_app.dws_app_demo_data a
-- 单分区和多重分区
	-- 单分区：实际业务中通常只有时间分区
	-- 多重分区：分区字段间是递进分区，要注意顺序。嵌套文件夹，例如一个时间分区下划分有各区域分区
-- 注意：分区字段不能是表中已存在的字段，分区字段是虚拟字段并不存储在底层的文件中，但查询会显示在结果末尾列
PARTITIONED BY (dt string, region int)

-- 分桶是对分区进一步的更细粒度的划分，是把文件真实分开，物理分隔
-- 使用分桶功能时，2.8版本以前的需要手动开启分桶功能，放在建表语句前set hive.enforce.bucketing=true
-- clustered by (id) into 5 bucket 根据hash(id)对5取模分成5个区：mod(id,5)取模结果0，1，2，3，4
-- sort by (age)即指定每个分桶内根据age倒序排序
-- 分桶好处：1加快查询速度，2join提高MR效率减少笛卡尔积数量，3高效抽样
-- 分桶弊端：数据结构更加复杂，存入时不能自动分桶还需要维护，数据量小还会生成小文件
CLUSTERED BY (id) SORTED BY (age desc) INTO 5 BUCKET

-- 设置文件读写机制：1指定SerDe类，2指定分隔符（使用delimited表示使用默认的LazySimpleSerDe，满足90%的使用场景）
	-- Hive的读写文件机制，SerDe:Serializer、Deserializer 的简称(序列化和反序列化：序列化是对象转化为字节码的过程，而反序列化是字节码转换为对象的过程)
	-- Read:HDFS files -> InputFileFormat -> <key,value> -> Deserializer(反序列化) -> Row object
	-- Write:Row object -> Serializer(序列化) -> <key,value> -> OutputFileFormat -> HDFS files
	-- Hive使用SerDe读取和写入表行对象，需要注意，key部分在读取时会被忽略，而在写入时 key 始终是常数，基本上行对象存储在 value 中
	-- 读取步骤1：首先调用InputFormat(默认情况下读取是TextInputFormat一行一行读取)，返回一条一条kv键值对记录(默认是一行对应一条键值对)
	-- 读取步骤2：调用SerDe(默认SerDe Library是 LazySimpleSerDe)的Deserializer进行反序列化
	-- 读取步骤3：将一条记录中的value根据分隔符语法细节切分为各个字段
-- 下面两种场景只能选择一种，即一个表只能设置一种文件读写机制
-- 使用场景1：指定SERDE为OrcSerde
ROW FORMAT SERDE
	'org.apache.hadoop.hive.ql.io.orc.OrcSerde'
-- 使用场景2：使用delimited表示使用默认的LazySimpleSerDe，满足90%的使用场景
-- 默认分隔符是'\001',一种特殊字符使用ASCII键盘打不出来。vim中连续按下Ctrl+v/Ctrl+a即可输入'\001'显示为'^A';文本编辑器中以SOH形式显示
-- ROW FORMAT DELIMITED 
	-- 没有子语法的话默认使用分隔符是'\001'
	-- 包括4个子语法 字符之间分隔、集合元素间分隔、MAP元素KV之间分隔、行数据之间分隔
	-- 示例数据：
		-- HDFS文本数据：2,西南,张三,18,洗衣粉:15-西瓜:20-衣架:30\n3,东南,李四,20,奶粉:300-足球:200-烧烤架:70
		-- Hive查询结果：分割为多行
		-- 2 西南 张三 18 {"洗衣粉":15,"西瓜":20,"衣架":30}
		-- 3 东南 李四 20 {"奶粉":300,"足球":200,"烧烤架":70}
	-- 指定字符之间分隔符为','
	-- FIELDS TERMINATED BY ',' 
	-- 指定集合元素间分隔符'-'
	-- COLLECTION ITEMS TERMINATED BY '-'
	-- 指定MAP元素KV之间分隔符
	-- MAP KEYS TERMINATED BY ':'
	-- 行数据之间分隔符
	-- 目前只支持'\n':SemanticException 15:20 LINES TERMINATED BY only supports newline '\n' right now. Error encountered near token '';''
	-- LINES TERMINATED BY '\n'

-- 文件存储：4种格式TextFile(默认)、 SequenceFile、 Parquet、ORC(建议)
-- 默认TextFile格式，如果要写入Parquet和ORC，不能load而是要insert
-- 最推荐的是ORC，来源于Hive，且占用小、存储和查询效率都高
STORED AS INPUTFORMAT
'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat'

-- 指定文件保存路径，LOCATION关键字不受内外表影响，使用相同
-- 默认/user/hive/warehouse，由${HIVE_HOME}/conf/hive-site.xml配置文件的hive.metastore.warehouse.dir属性指定
LOCATION '/data' --即/user同目录下data存放

-- TBLPROPERTIES是表的一些属性，HIVE内置了一部分属性，使用者也可以在创建表时进行自定义；
-- 拓展(亲测)：建表后也可修改内部表为外部表（外转内同理）alter table test set TBLPROPERTIES ('EXTERNAL'='true');
-- 例如：开启事务支持（默认关闭），关于事务表下方有单独示例
TBLPROPERTIES('transactional'='true')
;

3.拓展1：复杂数据分割

DROP TABLE IF EXISTS tmp.employee_org;
CREATE TABLE caw.employee_org(
	id bigint comment '编号',
	region_id int comment '区域ID',
	name string comment '员工姓名',
	age int comment '年龄',
	shop_price map<string,int> -- 注意map复杂类型
	)
COMMENT '员工基础表'
-- 指定分隔符
ROW FORMAT DELIMITED 
-- 指定字符之间分隔符为','
FIELDS TERMINATED BY ',' 
-- 指定集合元素间分隔符'-'
COLLECTION ITEMS TERMINATED BY '-'
-- 指定MAP元素KV之间分隔符
MAP KEYS TERMINATED BY ':'
;

4.拓展2：事务表

-- 事务表：局限性很强，必须先set开启一堆配置参数，必须是内部表，必须是分桶表、必须是orc格式，必须开启事务功能
set hive.support.concurrency=true;  -- Hive是否支持并发
set hive.txn.manager=org.apache.hadoop.hive.ql.lockmgr.DbTxnManager; -- 配置事务管理类，由默认的类支持
-- 外部表不能成为ACID表，不允许从非ACID会话读取/写入ACID表
	-- ACID:数据库管理系统在写入或更新资料的过程中，为保证事务(transaction)时正确可靠的，必须具备4个特性：
		-- 原子性：一个事务中所有操作，要么全部完成，要么全部不完成。事务执行过程中发生错误，会被恢复到事务开始前状态
		-- 一致性：事务开始前和事务结束后，数据库的完整性没有被破坏，写入的资料必须完全符合所有的预设规则
		-- 隔离性：允许多个并发事务同时对其数据进行读写和修改的能力，防止多个事务并发执行由于交叉执行而导致的数据不一致
		-- 持久性：事务处理结束后，对数据的修改时永久的，即便系统故障也不会丢失
	-- 不允许从非ACID会话读取/写入ACID表
		-- 当前会话开启了事务，可以进行查询写入等操作，新建的未开启事务的会话不能做查询写入操作
-- 事务的本质只是通过标记机制标记为delete，并没有真正删除
create table if not exists tmp.test
	(id bigint comment '编号',
	name string comment '姓名',
	age int comment '年龄',
	shop_price map<string,int> -- 注意map复杂类型
	)
-- 必须是分桶表
clustered by (id) into 2 bucket 
-- 必须是orc格式
stored as orc 
-- 必须开启事务功能
TBLPROPERTIES('transactional'='true')
;

声明：本文所载信息不保证准确性和完整性。文中所述内容和意见仅供参考，不构成实际商业建议，如有雷同纯属巧合。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

hive

大数据

大数据单机学习环境搭建(5)Hive建表DDL详解的相关文章

Spark SQL 未正确转换时区[重复]

这个问题在这里已经有答案了使用 Scala 2 10 4 和 Spark 1 5 1 和 Spark 1 6 sqlContext sql select id to date from utc timestamp from unixtim
我可以将格式和路径选项传递到spark_write_table中吗？或者将 saveAsTable 与 Spark_write_orc 一起使用？

Spark 2 0 与 Hive 假设我正在尝试编写一个 Spark 数据框 irisDf to orc and将其保存到 hive 元存储在 Spark 中我会这样做 irisDf write format orc mode overw
Hive如何存储数据，什么是SerDe？

当查询表时 SerDe 将将文件中的字节中的一行数据反序列化为 Hive 内部使用的对象来操作该行数据执行 INSERT 或 CTAS 时请参阅第 441 页上的导入数据表的 SerDe 将将 Hive 的一行数据的内部表示序列化为
使用 UDF 添加文件读取添加到 Hive 资源的文件

我想知道如何读取使用添加的 Hive 资源ADD FILE来自乌德夫例如 Hive gt add file users temp key jks Java中的UDF可以读取这个文件吗在 Udf 中获取此文件的路径是什么谢谢大卫一旦
HIVE 执行错误，从 org.apache.hadoop.hive.ql.exec.DDLTask 返回代码 1

我在创建配置单元数据库时收到以下错误 FAILED 执行错误从 org apache hadoop hive ql exec DDLTask 返回代码 1 com facebook fb303 FacebookService Iface
将日期字符串转换为“MM/DD/YY”格式

我刚刚看到这个例子我该如何解决这个问题 Hive 元存储包含一个名为 Problem1 的数据库其中包含一个名为 customer 的表 customer 表包含 9000 万条客户记录 90 000 000 每条记录都有一个生日字段
为 Presto 和 AWS S3 设置独立 Hive Metastore 服务

我工作的环境中使用 S3 服务作为数据湖但没有 AWS Athena 我正在尝试设置 Presto 以便能够查询 S3 中的数据并且我知道我需要通过 Hive Metastore 服务将数据结构定义为 Hive 表我正在 Docker
如何在蜂巢中的每个组中按计数 desc 进行排序？

这是 HQL select A B count as cnt from test table group by A B order by cnt desc 示例输出如下 a1 b1 5 a2 b1 3 a1 b2 2 a2 b2 1 但我想
hive sql查找最新记录

该表是 create table test id string name string age string modified string 像这样的数据 id name age modifed 1 a 10 2011 11 11 11 1
hive 添加分区语句忽略前导零

我在 hdfs 上有文件夹 user test year 2016 month 04 dt 25 000000 0 需要将上面的分区路径添加到test table 命令 ALTER TABLE test ADD IF NOT EXISTS
如何将 Pandas 数据框保存到配置单元表？

我有 pandas 数据框我正在尝试找到将数据框数据保存到配置单元表的最佳方法一种方法是保存到 csv 文件并将其加载到 hive 表有一个更好的方法吗 None
Hive：在查询中将 array 转换为 array

我有两张桌子 create table a 1 array
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
在蜂巢中出现错误

当我连接到 ireport 时如果说在 hive shell 中显示表则会出现此错误元数据错误 java lang RuntimeException 无法实例化 org apache hadoop hive metastore Hiv
Hive 聚集在多个列上

据我所知当配置单元表聚集在一列上时它会执行该分桶列的哈希函数然后将该行数据放入其中一个桶中每个桶都有一个文件即如果有 32 个桶那么 hdfs 中就有 32 个文件将 clustered by 放在多个列上意味着什么例如假
是否可以通过编写单独的mapreduce程序并行执行Hive查询？

我问了一些关于提高 Hive 查询性能的问题一些答案与映射器和减速器的数量有关我尝试使用多个映射器和减速器但在执行中没有看到任何差异不知道为什么可能是我没有以正确的方式做或者我错过了其他东西我想知道是否可以并行执行 Hive
将数据从 .txt 文件加载到 Hive 中以 ORC 形式存储的表

我有一个数据文件位于 txt格式我正在使用该文件将数据加载到 Hive 表中当我将文件加载到类似表中时 CREATE TABLE test details txt visit id INT store id SMALLINT STORE
Apache Impala 中是否有相当于 Hive 的“爆炸”功能的函数？

Hive的函数explode是记录在这里 https cwiki apache org confluence display Hive LanguageManual UDF LanguageManualUDF Built inTable G
如何将.txt文件转换为Hadoop的序列文件格式

有效利用 Map Reduce 作业Hadoop http hadoop apache org 我需要将数据存储在hadoop的序列文件格式 http hadoop apache org common docs current api or
Hive 如何选择除一列之外的所有列？

假设我的表看起来像这样 Col1 Col2 Col3 Col20 Col21 现在我想选择除 Col21 之外的所有内容我想在插入其他表之前将其更改为 unix timestamp 因此简单的方法是执行以下操作 INSERT INTO

随机推荐

框架 - Mybatis 源码一步步深入（三）

简介上一章我们大概了解了SqlSessionFactoryBuilder和Configuration两个类这一章我们主要了解XMLConfigBuilder类它是Mybatis配置文件解析入口 BaseBuilder 类在了解XML
【FPGA零基础学习之旅#12】三线制数码管驱动（74HC595）串行移位寄存器驱动

欢迎来到FPGA专栏三线制数码管驱动 o o 嗨我是小夏与酒博客主页小夏与酒的博客该系列文章专栏 FPGA学习之旅文章作者技术和水平有限如果文中出现错误希望大家能指正欢迎大家关注目录三线制数码管驱动一效果演示二
odoo16企业版实现从销售-仓库-采购-制造-制造外包-会计整个流程自动化单据功能的演示教程(带视频)

Odoo 16销售仓库采购制造制造外包会计整个流程自动化单据功能的演示教程今天我们在odoo16企业版做一个实现从销售仓库采购制造制造外包到会计整个流程自动化单据功能的演示也就是说在销售应用里下了一个销售单其他模块的单
C语言创建顺序表并插入元素详细注释

顺序表是用一组地址连续的存储单元依次存储数据元素的数据结构顺序表是线性表的一种线性表是最常用且最简单的一种数据结构一个线性表是 n 个数据元素的有限序列我们使用 c 语言来创建顺序表并插入元素 IDE Code Blocks 17
使用 Open3D 生成空间直线点云

使用 Open3D 生成空间直线点云 Open3D 是一个流行的开源库被广泛应用于 3D 数据处理和可视化领域本文将介绍如何使用 Open3D 生成空间直线点云从而为后续的 3D 数据分析和可视化工作提供基础数据首先我们需要导入
ROS——Navigation功能包等你来查收！

ROS Robot Operating System 机器人操作系统我相信大家或多或少都听过在如今机器人领域突飞猛进的时代 ROS也得到飞速发展下图展示了其各版本的发展历程 ROS的原型源自斯坦福大学人工智能实验室的项目其首要设计目
最短路径(给定一个包含非负整数的 m x n 网格，请找出一条从左上角到右下角的路径，使得路径上的数字总和为最小。说明：每次只能向下或者向右移动一步。)...

给定一个包含非负整数的 m x n 网格请找出一条从左上角到右下角的路径使得路径上的数字总和为最小说明每次只能向下或者向右移动一步例输入 1 3 1 1 5 1 4 2 1 输出 7 解释因为路径 1 3 1 1 1 的总和最
a 标签图片下载

一般 a 标签下载文件的方式都是加download属性但是对于图片下载来说加了download的属性有时起作用有时不起作用如果真想下载远程图片在url后同加 response content type application oct
win10安装docker教程、常见问题和原理总结

文章目录前言一 Docker是什么 Docker通常应用场景准备开始为什么要引入docker docker基本概念 docker工作流程 docker原理二 win10上安装docker 三 linux安装docker 前言 wi
HC-05学习笔记

大家好新手上路请多多指教网上有很多大佬也做了这个HC 05的文章我这个文章只是个人学习笔记如果有侵犯到那位大佬请与我联系谢谢也是希望对一次的学习做一个记录也能够希望帮助到其他的小伙伴们 HC 05蓝牙大家好新手上路请多多
Python中Xpath一些研究,node与*的一些区别

Python中Xpath一些研究 node与的一些区别理解详细看下文主要是一些区别主要是注意 child node 与child 的一些区别 node 表示的是节点表示的是元素元素文本注释都属于节点而标签属于元素同时标
Python研究生组蓝桥杯（省二）参赛感受

为什么参加蓝桥杯今年是读研的第一年看着我简历上的获奖经历优秀学生干部优秀志愿者优秀毕业生大学四年我竟然没有一次竞赛类的经历也没有拿得出手的项目我陷入了深深的焦虑听说蓝桥杯的门槛相对较低对我这种小白比较友好于是我报名了
软件配置管理（二）配置管理角色与过程

文章目录一配置管理角色及职责项目经理 PM 配置控制委员会 CCB 配置管理员 CMO 系统集成员 SIO 开发人员 DEV 二配置管理基本流程计划阶段开发和维护阶段三软件配置管理七项基本活动 1 制定配置管理计划 2 识别
ubuntu2004/1804安装编译RocksDB

Linux Ubuntu下载依赖 Upgrade your gcc to version at least 4 8 to get C 11 support Install gflags First try sudo apt get inst
XSS十五关通关秘籍

文章来源 MS08067 Web零基础1期作业本文作者 ymsli Web零基础1期学员第一关 url输入关键字完成第一关第二关文本框内输入 nclick alert 123 gt 点击搜索文本框已被添加onclick事件点击
面试总结：测试常见面试题汇总

文章目录理论测试流程各个测试阶段单元测试集成测试系统测试区别测试用例设计什么是好的测试用例方法用户登录实例 App测试和Web测试的区别典型测试场景聊天功能测试用例怎么设计怎么测试微信朋友圈 TODO 怎么测试微
do_mmap解读

1 unsigned long do mmap pgoff struct file file unsigned long addr 2 unsigned long len unsigned long prot 3 unsigned long
Chat Gpt 4.0 API接口技术对接

GPT Generative Pre trained Transformer 是一种基于Transformer网络架构的自然语言处理模型能够生成自然连贯的语言文本 GPT API接口技术是指将GPT模型应用于API接口开发使得通过AP
ML-机器学习基础

目录偏差与方差导致偏差和方差的原因深度学习中的偏差与方差生成模型与判别模型两者之间的联系优缺点常见模型先验概率与后验概率偏差与方差偏差与方差分别是用于衡量一个模型泛化误差的两个方面模型的偏差指的是模型预测的期望值与真
大数据单机学习环境搭建(5)Hive建表DDL详解

专题大数据单机学习环境搭建和使用 1 Hive建表简单示例 1 1 Hive建表语句 1 2 表详细信息 1 3 数据展示 2 Hive建表语法详解 3 拓展1 复杂数据分割 4 拓展2 事务表大数据单机学习环境搭建 5 Hive建表D

大数据单机学习环境搭建(5)Hive建表DDL详解

专题：大数据单机学习环境搭建和使用

1. Hive建表简单示例

1.1.Hive建表语句

1.2.表详细信息

1.3.数据展示

2. Hive建表语法详解

3.拓展1：复杂数据分割

4.拓展2：事务表

大数据单机学习环境搭建(5)Hive建表DDL详解 的相关文章

随机推荐

热门标签

大数据单机学习环境搭建(5)Hive建表DDL详解的相关文章