hive--分组排序函数

2023-10-31

分组排序
最主要的区别就是如果两个分数相同，排名是否同列以及排名是否相同。

这个方法仅在mysql8.0以后，hive或其他数据库支持

直接看图：原始表

原表如上，想要的结果如下

在这里插入图片描述

从图中可以发现：

row_number函数：如果并列但名次反而不相同，但是后续的名次是连续的
rank函数：如果并列则名次相同，但是后续的名次会不连续
dense_rank函数：如果并列则名次相同，但是后续的名次是连续的
ntile函数：如果并列则名次相同，后续的名次连续

row_number
基本原理是先使用over子句中的排序语句对记录进行排序，然后再根据这个排序生成序号。

select *, row_number() over (order by score desc) as rank
from score;

查询结果如下
在这里插入图片描述

一般在工作中，常用分组排序做web程序的分页，然后我们指定查询范围。
row_number()进阶

rank
作用效果和row_number()方法类似，但是支持并列排名，但排名名次可能不连续。

select *, rank() over (order by score desc) as rank
from score;

查询结果如下
在这里插入图片描述

dense_rank
作用效果和rank()方法类似，不仅支持并列排名，而且排名也是连续的

select *, dense_rank() over (order by score) as rank
from score;

查询结果如下
在这里插入图片描述

ntile
ntile()函数是最好理解，同时也是最不好理解的。结果既能够和其他函数相似，也能够有很大的区别。

select *, ntile(3) over (order by score desc) as rank
from score;

查询结果如下
在这里插入图片描述

ntile函数可以对序号进行分组处理，类似于hive的分桶处理：

ntile函数的分桶依据：

1、每组的记录数不能大于它上一组的记录数，即编号小的桶放的记录数不能小于编号大的桶。也就是说，第1组中的记录数只能大于等于第2组及以后各组中的记录数。
2、所有组中的记录数要么都相同，要么从某一个记录较少的组（命名为X）开始后面所有组的记录数都与该组（X组）的记录数相同。也就是说，如果有个组，前三组的记录数都是9，而第四组的记录数是8，那么第五组和第六组的记录数也必须是8。

举个栗子
如果是50条，那么就是
1-10 : 第一组（十条）
11-20 : 第二组（十条）
21-30 : 第三组（十条）
31-40 : 第四组（十条）
41-50 : 第五组（十条）

如果是51条，那么就是
1-11 : 第一组（十一条）
12-21 : 第二组（十条）
22-31 : 第三组（十条）
32-41 : 第四组（十条）
42-51 : 第五组（十条）

总结
在使用分组排序函数的时候要注意以下三点：

排名函数必须要有over子句
排名函数必须要有order by的over子句
分组内从1开始排序

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

大数据

hive

hive--分组排序函数的相关文章

如何根据“^P”分隔符分隔的数据构建 Hive 表

我的查询是 CREATE EXTERNAL TABLE gateway staging poll int total int transaction id int create time timestamp update time time
如何获取hive中的数据库用户名和密码

正在编写jdbc程序来连接hive数据库我希望在连接 url 中提供用户名和密码我不知道如何使用 hive QL 获取用户名和密码有人可以帮我吗 Exception in thread main java sql SQLNonTran
Hive：转换“yyyy-MM-dd'T'HH:mm:ss.SSS'Z'”中缺少秒数的字符串日期时间

我使用以下代码将字符串日期时间变量转换为日期时间但转换后的字符串缺少 SSS 部分使用的代码 cast FROM UNIXTIME UNIX TIMESTAMP oldtime yyyy MM dd T HH mm ss SSS Z y
hive中每行的百分比计算

我在配置单元中有一个具有以下架构的表差值 int 计数值 int 值为 5 2 30 1 90 1 100 1 现在我想找到每个 count value 与 count value 总和的百分比每行的值类似于 count value s
我可以将格式和路径选项传递到spark_write_table中吗？或者将 saveAsTable 与 Spark_write_orc 一起使用？

Spark 2 0 与 Hive 假设我正在尝试编写一个 Spark 数据框 irisDf to orc and将其保存到 hive 元存储在 Spark 中我会这样做 irisDf write format orc mode overw
在 IDEA 中运行 Spark on Hive 项目期间创建事务连接工厂时出错

我正在尝试为 Spark Streaming 项目设置一个开发环境该项目需要将数据写入 Hive 我有一个包含 1 个主设备 2 个从设备和 1 台开发机器的集群在 Intellij Idea 14 中编码在 Spark shell
如何在 hive 中创建一个空的结构数组？

我有一个观点Hive 1 1 0 根据条件它应该返回一个空数组或一个数组struct
Hive 中字符串数据类型是否有最大大小？

谷歌了很多但没有在任何地方找到它或者这是否意味着只要允许集群 Hive 就可以支持任意大字符串数据类型如果是这样我在哪里可以找到我的集群可以支持的最大字符串数据类型大小提前致谢 Hive 列表的当前文档STRING作为有效的数据类
Hive 中 Sortby 和 orderby 查询的区别

Hive sort by and order by命令用于按排序顺序获取数据例如 Sort by hive gt SELECT E EMP ID FROM Employee E SORT BY E empid Order by hive
使用 UDF 添加文件读取添加到 Hive 资源的文件

我想知道如何读取使用添加的 Hive 资源ADD FILE来自乌德夫例如 Hive gt add file users temp key jks Java中的UDF可以读取这个文件吗在 Udf 中获取此文件的路径是什么谢谢大卫一旦
Hive中group by后是否可以连接字符串字段

我正在评估 Hive 需要在 group by 之后进行一些字符串字段连接我找到了一个名为 concat ws 的函数但看起来我必须显式列出所有要连接的值我想知道是否可以在 Hive 中使用 concat ws 做这样的事情这是一个
使用 python 从 hive 读取数据时的性能问题

我在 hive 中有一个表其中包含 351 837 110 MB 大小记录我正在使用 python 读取该表并写入 sql server 在此过程中从 hive 读取数据到 pandas dataframe 需要很长时间当我加载整
HIVE 执行错误，从 org.apache.hadoop.hive.ql.exec.DDLTask 返回代码 1

我在创建配置单元数据库时收到以下错误 FAILED 执行错误从 org apache hadoop hive ql exec DDLTask 返回代码 1 com facebook fb303 FacebookService Iface
hive查询无法通过jdbc生成结果集

我是 Hive 和 Hadoop 的新手在我的教程中我想将表创建为 import java sql SQLException import java sql Connection import java sql ResultSet im
将日期字符串转换为“MM/DD/YY”格式

我刚刚看到这个例子我该如何解决这个问题 Hive 元存储包含一个名为 Problem1 的数据库其中包含一个名为 customer 的表 customer 表包含 9000 万条客户记录 90 000 000 每条记录都有一个生日字段
Hive - 线程安全的自动递增序列号生成

我遇到一种情况需要将记录插入到特定的 Hive 表中其中一列需要是自动递增的序列号即在任何时间点都必须严格遵循 max value 1 规则记录从许多并行的 Hive 作业插入到这个特定的表中这些作业每天每周每月批量运行现在
使用 Hiveql 循环

我正在尝试合并 2 个数据集例如 A 和 B 数据集 A 有一个变量 Flag 它有 2 个值我并没有只是将两个数据合并在一起而是尝试根据标志变量合并两个数据集合并代码如下 create table new data as se
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
如何将SQL数据加载到Hortonworks中？

我已在我的电脑中安装了 Hortonworks SandBox 还尝试使用 CSV 文件并以表结构的方式获取它这是可以的 Hive Hadoop nw 我想将当前的 SQL 数据库迁移到沙箱 MS SQL 2008 r2 中我将如何做
我们如何确定总数？ Hive 表的桶数

我对 hadoop 有点陌生根据我的知识桶是固定的 hive 表中的分区数和 hive 使用编号减速机数量与总数量相同创建表时定义的存储桶数量那么谁能告诉我如何计算总数 Hive 表中的桶数有没有计算桶总数的公式让我们看一个场景

随机推荐

加载动态库失败（loadLibrary返回为空 GetLastError126）解决办法 dll有依赖的dll缺失

问题加载动态库失败 loadLibrary返回为空排除 64位也对平台相同错误至少找不到一个必需的隐式或转发依赖项这个不影响 SmartPay PGL dll下的四个dll 则是他所依赖的四个dll 因为我这里有缺失显示黄色的
本地ubuntu22.04装cuda11.7+torch2.0.1流程记录

想要更新cuda11 7 需要的驱动最低版本515 65 01 而我的电脑原驱动为470 需要更新 1 卸载原驱动使用了命令 sudo apt get purge nvidia sudo apt get autoremove 用以下命令检
MATLAB矩阵乘法14例

MATLAB矩阵乘法14例简介矩阵乘法是线性代数中的基本运算之一也是MATLAB中的重要运算矩阵乘法的结果是两个矩阵的乘积其中一个矩阵的列数等于另一个矩阵的行数在这篇文章中我们将介绍20个MATLAB矩阵乘法的例子帮助您更好
什么是自动化测试框架?我们该如何搭建自动化测试框架？

无论是在自动化测试实践还是日常交流中经常听到一个词框架之前学习自动化测试的过程中一直对框架这个词知其然不知其所以然最近看了很多自动化相关的资料加上自己的一些实践算是对框架有了一些理解这篇博客就聊聊自动化框架的一些
根因定位FluxRank论文通过核密度估计(KDE)获得变化量部分

II CHANGE QUANTIFICATION CHANGE QUANTIFICATION说明 A 变化开始时间 B 变化程度论文 FluxRank A Widely Deployable Framework to Automatica
Mybatis之分页插件PageHelper工作原理

前言数据分页功能是软件系统中必备的功能在持久层使用mybatis的情况下 pageHelper来实现后台分页则是我们常用的一个选择所以本文专门介绍下需要的依赖
Spring Boot 实现用户行为记录的四种方式

目录一需求背景二需要的pom依赖三 AOP切面编程实现四 Interceptor拦截器实现五 Filter过滤器实现六 ArgumentResolver 七拓展部分八参考文献一需求背景根据产品经理要求需要对用户
npx mkdirp命令

npx是什么 npx 是 npm v5 2 0引入的一条命令更方便开发者使用包内提供的命令行工具 ep1 npm原方式 npm install g create react app create react app my app npx方
行为型模式-状态模式（State）

概述当一个对象的内在状态改变时允许改变其行为这个对象看起来像是改变了其类定义状态模式的核心理念就是将不同状态对应的行为封装到状态中在状态变化时改变依赖状态对象的行为那种在一个方法内对状态进行多重判断的方式虽然可以根据不同的状态
Android系统启动流程（八）——Launcher启动

1 概述 Launcher是Android的桌面应用也是一个系统初始化完成之后自动拉起的应用 Launcher会在SystemServer进程初始化完成之后在ActivityManagerService的systemReady方法中开始
图算法（二十五）：子图匹配（Subgraph Matching）【基本的图查询操作，意在发掘图重要的子结构】【适用场景：社交网络分析、群体发现、异常检测】【在一个给定的大图里找到与给定小图同构的子图】

一概述子图匹配 subgraph matching 算法的目的是在一个给定的大图里面找到与一个给定小图同构的子图这是一种基本的图查询操作意在发掘图重要的子结构适用场景子图匹配 subgraph matching 算法适用于社交网
Routh-Hurwitz Criterion 劳斯稳定判据

Routh Hurwitz Criterion 为什么仅仅要有一个极点在右半平面那么系统就不会稳定比如H s 1 s 1 1 s 3 1 s 2 这里有个极点s 2 在有半平面通过laplace 反变换能够知道当时间足够长的时候 A
[Unity]Crest Ocean System增加海面透明度

原因插件没有设置海面透明度的功能修改shader可以修改透明度解决方案关键代码 Shader Ocean shader Shader Crest Ocean SubShader Pass half4 Frag const Varyi
FreeSwitch模式：Inbound和Outbound的区别

14 Inbound和Outbound Outbound模式相较于嵌入式语言相比更强大适合控制单腿的呼叫实现复杂的IVR应用而Inbound更适合接收所有的事件与多条腿进行交互进行更复杂的呼叫控制其中在Outbound模式中
面试系列之线程篇

线程和进程进程是资源分配和调度的最小独立单元线程是CPU调度的基本单元一个进程可以包含多个线程多个线程共享该进程的资源线程可以看作是轻量级的进程进程间通信的方式 volatile synchronized wait notify
字符串学习&总结（感觉主要是总结模板）

目录前言一哈希导读 HASH模板哈希双哈希 hash应用 hash牛逼克拉斯 0 核心操作求子串哈希值 1 字符串匹配 2 允许k次失配的字符串匹配 3 最长回文子串 hash操作简单可解决的问题有点多啊 nice 4 最长
深入理解 RPC : 基于 Python 自建分布式高并发 RPC 服务

RPC Remote Procedure Call 服务也即远程过程调用在互联网企业技术架构中占据了举足轻重的地位尤其在当下微服务化逐步成为大中型分布式系统架构的主流背景下 RPC 更扮演了重要角色 Google 开源了 gRPC F
Grpc demo java 实现

环境 JDK8 Maven3 6 3 我的 Grpc java demo https github com 999bug grpc java 记得star 搭建步骤 1 利用代码编译器创建maven 项目 2 添加依赖坐标
python自动化之models 进阶操作二

PUBLIC METHODS THAT ALTER ATTRIBUTES AND RETURN A NEW QUERYSET def all self 获取所有的数据对象 def filter self args kwargs 条件查询条
hive--分组排序函数

分组排序最主要的区别就是如果两个分数相同排名是否同列以及排名是否相同这个方法仅在mysql8 0以后 hive或其他数据库支持直接看图原始表原表如上想要的结果如下从图中可以发现 row number函数如果并列但名次反而不

hive--分组排序函数

hive--分组排序函数 的相关文章

随机推荐

热门标签

hive--分组排序函数的相关文章