hive排序-order by / sort by / distribute by / cluster by

2023-10-30

1，Order By-全局排序

全局排序，只能有一个reduce。

1.1、使用 ORDER BY 子句排序

ASC（ascend）: 升序（默认）
DESC（descend）: 降序

1.2、ORDER BY 子句在SELECT语句的结尾

1.3、demo

#查询学生的成绩，并按照分数降序排列
SELECT * FROM student s LEFT JOIN score sco ON s.s_id = sco.s_id ORDER BY sco.s_score DESC;

#按照分数的平均值排序
select s_id ,avg(s_score) avg from score group by s_id order by avg;

#按照学生id和平均成绩进行排序
select s_id ,avg(s_score) avg from score group by s_id order by s_id,avg;

2，Sort By-每个MapReduce内部局部排序

每个MapReduce内部进行排序，对全局结果集来说不是排序。

2.1 设置reduce个数

 set mapreduce.job.reduces=3;

2.2 查看设置reduce个数

set mapreduce.job.reduces;

2.3 查询成绩按照成绩降序排列

select * from score sort by s_score;

2.4 将查询结果导入到文件中（按照成绩降序排列）

 insert overwrite local directory '/data/hive/sort' select * from score sort by score;

3，Distribute By-分区排序

对数据按照指定的字段分区，通常结合sort by使用，DISTRIBUTE BY语句要写在SORT BY语句之前。

先按照学生id进行分区，再按照学生成绩进行排序。

3.1 设置reduce的个数

set mapreduce.job.reduces=7;

3.2 通过distribute by进行数据的分区

insert overwrite local directory '/data/thive/distribute' select * from score distribute by id sort by score;

3.4 Cluster By

cluster by相当于distribute by和sort by字段相同。

cluster by除了具有distribute by的功能外还兼具sort by desc。
以下两种写法等价:

select * from score cluster by id; 
select * from score distribute by id sort by id;

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

hive

hive排序-order by / sort by / distribute by / cluster by 的相关文章

在 HIVE 中查找函数

我想检查一个字段是否包含字符串我想要一个如下所示的函数 FIND string to find field to search 我的数据如下所示 field to search no match in this string record
Hive Full Outer Join为相同的Join Key返回多行

我正在对同一列上的 4 个表进行完全外连接我想为连接列中的每个不同值仅生成 1 行输入是 employee1 employee1 personid employee1 name 111 aaa 222 bbb 333 ccc
如何在 Hive 中将字符串转换为毫秒时间戳

我有一个字符串 20141014123456789 它代表一个毫秒时间戳我需要将其转换为 Hive 中的时间戳 0 13 0 而不丢失毫秒我尝试了这个但 unix timestamp 返回一个整数所以我丢失了毫秒 from unix
HIVE：GROUP BY 的行为与 MySQL 中不同

我对 MySQL 有一些经验最近我必须在 HIVE 上做一些工作两者之间的查询基本结构非常相似但是 HIVE 中的 GROUP BY 的工作方式似乎有点不同因此我无法实现以前在 MySQL 中使用 GROUP BY 可以实现的目标
Hive 上的自定义 MapReduce 程序，规则是什么？输入和输出怎么样？

我被困了几天因为我想根据我在 hive 上的查询创建一个自定义的地图缩减程序在谷歌搜索后我发现没有太多例子而且我仍然对规则感到困惑创建自定义 MapReduce 程序的规则是什么映射器和减速器类怎么样任何人都可以提供任何解决方案
如何在 hive 中创建一个空的结构数组？

我有一个观点Hive 1 1 0 根据条件它应该返回一个空数组或一个数组struct
Hive如何存储数据，什么是SerDe？

当查询表时 SerDe 将将文件中的字节中的一行数据反序列化为 Hive 内部使用的对象来操作该行数据执行 INSERT 或 CTAS 时请参阅第 441 页上的导入数据表的 SerDe 将将 Hive 的一行数据的内部表示序列化为
Hive 中字符串数据类型是否有最大大小？

谷歌了很多但没有在任何地方找到它或者这是否意味着只要允许集群 Hive 就可以支持任意大字符串数据类型如果是这样我在哪里可以找到我的集群可以支持的最大字符串数据类型大小提前致谢 Hive 列表的当前文档STRING作为有效的数据类
Hive查询快速查找表大小（行数）

是否有 Hive 查询可以快速查找表大小即行数而无需启动耗时的 MapReduce 作业这就是为什么我想避免COUNT I tried DESCRIBE EXTENDED 但这产生了numRows 0这显然是不正确的对新手问题表示歉
Hive中group by后是否可以连接字符串字段

我正在评估 Hive 需要在 group by 之后进行一些字符串字段连接我找到了一个名为 concat ws 的函数但看起来我必须显式列出所有要连接的值我想知道是否可以在 Hive 中使用 concat ws 做这样的事情这是一个
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
通过 hive 访问 maxmind 的 GeoIP-country.mmdb 数据库时出现异常

我有一个自定义 Hive UDF 来访问 MaxmindGeoIP 国家 mmdb通过 add file pqr mmdb 添加到 Hive 资源的数据库编译好的 UDF 添加为 add jar abc jar 当我运行 hive 查询时
在 Hive 中获取数据的交集

我在配置单元中有以下数据 userid cityid 1 15 2 15 1 7 3 15 2 8 3 9 3 7 我只想保留具有 cityid 15 和 cityid 7 的用户 ID 在我的示例中它将是用户 ID 1 和 3 我试过
hive 从两个数组创建映射或键/值对

我有两个具有相同数量值的数组它们映射为 1 1 我需要从这两个数组创建一个键值对或映射键值任何想法或提示都会有帮助当前表结构 USA WEST NUMBER Street City 135 Pacific Irvine USA
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
Spark SQL sql("").first().getDouble(0) 给我不一致的结果

我有下面的查询它应该找到列值的平均值并返回一个数字的结果 val avgVal hiveContext sql select round avg amount 4 from users payment where dt between 2
hive 添加分区语句忽略前导零

我在 hdfs 上有文件夹 user test year 2016 month 04 dt 25 000000 0 需要将上面的分区路径添加到test table 命令 ALTER TABLE test ADD IF NOT EXISTS
使用 impala 按范围连接表的有效方法

我第一个有下表 Range 包括值范围和附加列 row From To Country 1 1200 1500 2 2200 2700 3 1700 1900 4 2100 2150 The From and Toare bigint并且是
Aws Athena - 重命名列名称

我正在尝试更改 AWS Athena 表中的列名称从old name to new name 普通的DDL命令不会影响表它们无法执行是否可以更改列名而不从头开始删除并重新创建表我错了雅典娜使用HIVE DDL语法所以正确的命令是
scala/spark 代码不允许在 hive 中添加列

如果源数据有新列我尝试在 Hive 表中添加一列所有新列的检测都运行良好但是当我尝试将列添加到目标表时我收到此错误 for f lt df schema fields if f name chk spark sqlContext

随机推荐

Unable to negotiate with 172.16.28.137 port 22: no matching host key type found. Their offer: ssh-rs

Unable to negotiate with 172 16 28 137 port 22 no matching host key type found Their offer ssh rsa ssh dss ssh连接服务器报错 Un
数字化转型升级是企业的一项重要决策

无独有偶世界经济数字化转型是一个大命题也是一个大趋势未来一段时期数字经济将成为拉动经济增长的一个重要引擎各行业各领域数字化转型步伐将大大加快不论是行业老大还是国家政策数字化转型都纷纷提上了日程看来在2020年进行数字化
贪吃蛇的小程序

1 创建项目 1 打开微信开发者工具如图所示的界面点击 2 填写项目以后点击确定即可如图所示 2 编程 1 编写index wxml的代码如下
ITIL是什么意思？ITIL是什么？

ITIL是什么 ITIL是Information Technology Infrastructure Library的缩写即信息技术基础架构库 ITIL是由英国政府部门CCTA Central Computing and Telecom
解决 hsdb jinfo jmap sa-jdi等mac不可用问题

mac 使用 hsdb 调试的时候报错 hsdb gt attach 3196 Attaching to process 3196 please wait ERROR attach task for pid 3196 failed os k
linux查看文件行数

这本阿里P8撰写的算法笔记再次推荐给大家身边不少朋友学完这本书最后加入大厂 Github 疯传史上最强悍阿里大佬 LeetCode刷题手册开放下载了使用wc命令具体通过wc help 可以查看如 wc l filename
论文笔记：nnU-Net: a self-configuring method for deep learning-based biomedical image segmentation

nature 2019 配套论文笔记 nnU Net Self adapting Frameworkfor U Net Based Medical Image Segmentation UQI LIUWJ的博客 CSDN博客 1 abstr
flutter windows 配置

按照官网的教程安装好Android Studio flutter3 3 7 添加flutter目录的bin到环境变量Path 特别要注意的是要添加以下两个环境变量否则在运行flutter run 编译android程序时会非常慢 Ru
【python基础知识】19.产品思维以及流程图的使用 - 思维篇

文章目录前言产品思维流程图顺序结构条件结构循环结构产品设计如何提需求如何设计解决方案前言这是一节思维课程我会向大家讲述如何利用编程知识去解决实际生活的问题我曾反复提到我们学习编程的目的从来不是为了考试而是要学会
ESP32+TFTLCD实现WiFi天气语音播报（六）

ESP32 MY1680U实现语音播报文章目录 ESP32 MY1680U实现语音播报前言一 MY1680U 12P 语音模块 1 概述 2 参数说明二代码实现 1 MY1690 c 2 MY1690 h 3 main c 总结
鸿蒙系统开发工具DevEco Studio 2.2下载/安装教程

鸿蒙开发包括鸿蒙应用开发手机app 和鸿蒙设备开发硬件开发两大部分其中设备开发又包括TV 音响眼镜手表 PC 平板汽车耳机以及未来的各种智能家居手机作为一个超级终端与各种设备实现互联未来无论是在工作学习运动还是做家
Ubuntu卸载Anaconda步骤

1 进行相关文件的删除删除12个文件夹删除anaconda3文件夹 rm rf anaconda3 删除 anaconda文件夹 rm rf anaconda 删除 condarc文件夹 rm rf condarc 删除 conda文件
QT项目移植Ubuntu碰到的问题及解决

项目可以直接移植移植过程中需要删除两个文件意思就是除了项目相关的文件其他的编译文件不要移植过去我的项目似乎是这几个文件的问题要是不删除上面多余文件的话我的项目是直接从windows复制到装载ubuntu的虚拟机上不删的话在w
Ubuntu 20.04 搭建 Fisco-BCOS 2.8.0 区块链系统

0 摘要本文根据 Fisco BCOS 及 Webase 官方文档就安装过程做了详细描述针对官方文档中一些不清楚的地方做了补充方便新手搭建 1 准备工作 1 1 系统 Ubuntu 20 04 3 Desktop Server F
TOOLLLM: FACILITATING LARGE LANGUAGE MODELS TO MASTER 16000+ REAL-WORLD APIS

本文是LLM系列的文章之一针对 TOOLLLM FACILITATING LARGE LANGUAGE MODELS TO MASTER 16000 REAL WORLD APIS 的翻译 TOOLLLMs 让大模型掌握16000 的真实
如何使用Mybtis-Plus创建项目？？？

1 建立项目 file gt New gt Project 选择Maven项目 2 导入依赖编写pom xml文件
MySQL允许外部访问

在从外部往MySQL插入数据是老是失败才发现是不允许从外部访问也找了很多方法都没解决最后才找到这个一安装好MySQL 二开始修改配置 1 登进MySQL之后 2 输入以下语句进入mysql库 use mysql 3 更新域属
VS Code 编辑器： Monaco Editor 介绍

Any application that can be written in JavaScript will eventually be written in JavaScript 任何可以用 JavaScript 来写的应用最终都将用
res://ieframe.dll/acr_error.htm错误解决办法

解决方法删除Internet Explorer 8 的 JSON 互操作性这个补丁该补丁编号KB976662 首先进入控制面板添加删除程序显示更新找到编号KB976662 删除
hive排序-order by / sort by / distribute by / cluster by

1 Order By 全局排序全局排序只能有一个reduce 1 1 使用 ORDER BY 子句排序 ASC ascend 升序默认 DESC descend 降序 1 2 ORDER BY 子句在SELECT语句的结尾 1 3 d