不同与分组哪个更好

2023-12-28

最简单的情况我们都参考：

select id from mytbl 
group by id

and

select distinct id from mytbl

正如我们所知，它们生成相同的查询计划，该计划在某些项目中反复提到，例如哪个更好：不同或分组依据 https://stackoverflow.com/questions/374973/which-is-better-distinct-or-group-by

然而在hive中，前者只有一个reduce任务，而后者有很多。

通过实验，我发现 GROUP BY 是10次以上比 DISTINCT 更快。

他们是不同的。

所以我学到的是：

GROUP-BY 无论如何并不比 DISTINCT 差，有时甚至更好。

我想知道：

1。如果这个结论是真的的话。

2。如果属实，我将认为 DISTINCT 是一种逻辑方便的方法，但为什么 DISTINCT 不采用 GROUP-BY 的更好实现呢？

3。如果是假的，我会非常渴望知道它在大数据情况下的正确用法。

非常感谢！！：）

你的经历很有趣。我还没有看到单个减速器的效果distinct versus group by。也许这两种结构之间的优化器存在一些细微的差异。

Hive 中一个“著名”的例子是：

select count(distinct id)
from mytbl;

versus

select count(*)
from (select distinct id
      from mytbl
     ) t;

前者仅使用一个减速器，后者并行运行。我在我的经验中看到了这一点，并且对其进行了记录和讨论（例如，在本文档的第 26 和 27 张幻灯片中）推介会 http://www.slideshare.net/oom65/optimize-hivequeriespptx). So, distinct绝对可以利用并行性。

我想随着 Hive 的成熟，这些问题将会得到解决。然而，讽刺的是 Postgres 也有类似的性能问题COUNT(DISTINCT)，尽管我认为根本原因有点不同。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

不同与分组哪个更好的相关文章

“错误：无法找到或加载主类 org.apache.hadoop.util.RunJar”是什么意思？

我正在尝试运行一个示例因为它指出 Hadoop 实践一书 http www manning com lam 第 15 页这是需要运行的命令 bin hadoop jar hadoop examples jar 但我收到这个错误 Err
MySql 5.7 ORDER BY 子句不在 GROUP BY 子句中并且包含非聚合列

我试图在不禁用 my ini 中的 only full group by 的情况下弄清楚这是我的查询 SELECT p title COUNT t qty AS total FROM payments t LEFT JOIN produc
插入 Hive 表 - 非分区表到具有多个分区的分区表 - 无法插入目标表，因为列号/类型

当我尝试插入分区表时出现以下错误 SemanticException 错误 10044 第 1 23 行无法插入目标表因为列号类型不同表 insclause 0 有 6 列这 3 列已分区我们不需要任何必须从中转储存储的过滤器
SQL：如何在按部分分组的查询中使用子查询？

如何在按部分分组的查询中使用子查询我使用 SQL Server 2008 R2 和 Delphi 2010 我收到此错误 Cannot perform an aggregate function on an expression cont
只获取倒数第二条记录 - mysql-query

我有一个如下表记录 my table id rating description 1 0 0 bed 2 1 0 good 3 0 0 bed 4 1 0 good 5 0 0 bed 6 0 0 bed 7 0 0 bed 现在我通过评级
不带 GROUP BY 的聚合查询

这个查询似乎在我的旧机器上完美运行但是在我的 MySQL 5 7 14 和 PHP 5 6 25 的新机器上它会抛出错误致命错误未捕获异常 PDOException 并带有消息 SQLSTATE 42000 语法错误或访问冲突 1
Spark中如何获取map任务的ID？

Spark中有没有办法获取map任务的ID 例如如果每个映射任务都调用用户定义的函数我可以从该用户定义的函数中获取该映射任务的 ID 吗我不确定您所说的地图任务 ID 是什么意思但您可以使用以下方式访问任务信息TaskContext
通过 osql.exe 运行脚本时出现问题

我尝试以这种格式运行我的软件的更新脚本 osql exe i path to script U 用户 P 密码 S sqlserver 位置 d 数据库名称 n b 大多数脚本的格式相同并且都以 GO 结尾其中很多都运行得很好但随机脚
Reporting Services 在哪里存储其日志文件

最相关的谷歌结果似乎表明为了访问日志我们必须将您自己的日志表部署到数据库并制作报告服务写入它 http technet microsoft com en us library ms157403 aspx 简而言之 Reporting S
在存储过程中验证用户的最简单方法？

我需要一个存储过程可以通过发送以下内容来检查登录尝试时他们是否是有效用户login and password查看它们在数据库中是否匹配有没有一种简单的方法可以做到这一点如果没有更多信息我目前能提供的最好信息是 CREATE STOR
st_intersects 与 st_overlaps

这两个查询有什么区别 select a gid sum length b the geom from polygons as a roads as b where st intersects a the geom b the geom gr
如何通过 SQL 表关联 SQL 中的实体

我是数据库设计的初学者我需要为项目创建数据库我可以用面向对象的术语解释我想要做什么值得庆幸的是数据库专家会很友善地向我解释如何在数据库方面处理这个问题我想创建一个与位置实体州城市有关系的用户 ID 名称实体所以在编程语言
SQL 连接两个没有关系的表

我有具有相同结构的不同表我想通过其中一列将它们连接起来问题是他们不共享该专栏中的信息 Table 1 Type A Name Value Table 2 Type B Name Value 结果表在单列中 nameFromA name
我不断收到错误“关系 [TABLE] 不存在”

我一直在尝试查询数据库中的两个表在服务器资源管理器中我可以看到两个表甚至可以看到其中的列我们将它们称为 Schema table1 和 Schema table2 其中 Schema 的第一个字母大写我尝试运行以下查询 selec
mysql自动存储记录创建时间戳

mysql 有什么方法可以在创建记录时自动将时间戳存储在记录行中我试图使用时间戳数据类型和 current timestamp 作为默认值但后来意识到每次更新记录时都会更新我只需要一些可以存储创建时间戳的东西 Thanks Set
如何使用 BigQuery 有效地选择另一个表中匹配子字符串的记录？

我有一个包含数百万个字符串的表我想将其与包含大约两万个字符串的表进行匹配如下所示 standardSQL SELECT record FROM record JOIN fragment ON record name LIKE CONCA
Spark SQL 中的 SQL LIKE

我正在尝试使用 LIKE 条件在 Spark SQL 中实现联接我正在执行连接的行看起来像这样称为修订 Table A 8NXDPVAE Table B 4 8 NXD V 在 SQL Server 上执行联接 A revision
我是否需要在外键上指定 ON DELETE NO ACTION？

我有以下与 SQL Server 2012 一起使用的 DDL CREATE TABLE Subject SubjectId INT IDENTITY 1 1 NOT NULL Name NVARCHAR 50 Not NULL CONST
SQL 更新 - 更新选定的行

我正在使用 SQL Server 2008 我有一个名为MYTABLE有两列 ID STATUS 我想编写一个存储过程来返回其记录STATUS是 0 但是这个存储过程必须更新STATUS返回行数为 1 如何在单个查询中执行此选择和更新操作
是否可以引用同一个表中的不同列？

如果博客有一个类别表如下所示 CREATE TABLE categories id INTEGER PRIMARY KEY AUTO INCREMENT parent id INTEGER NOT NULL name VARCHAR

随机推荐

Android PDF 查看器库 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我知道这个问题已经被问过很多次了但我仍然不清楚是否有一个现有的且正常工作的库可以本地显示 PDF 文
Pod 库未正确安装

我有一个带有 proj 结构的项目 XyzAbc LICENSE XyzAbc XyzAbc h Info plist file1 swift file2 swift Products XyzAbc framework 构建这个项目后我选择
wsgi 错误：地址已在使用中 - socketio/django/apache2

我的项目是使用 React create react app React router 无 webpack Django rest 和后端带有 eventlet 的 Socketio 创建的我在使用 apache2 进行部署时遇到了 3
注意：未定义的变量：第 2 行 C:\xampp\htdocs\hoc\get_session.php 中的 _SESSION

第一页第二页
面向对象的设计 - 咒语

我正在开发我的第一个 Java 项目这是一个基本的角色扮演游戏现在我正在研究咒语我需要一些 OOD 指导 I have Character 这是一个abstract class Character有一些subclasses like
UIWebView 无法加载 HTTPS 页面：错误域 = NSURLErrorDomain 代码 = -999 “操作无法完成。（NSURLErrorDomain 错误 -999。）”

注这个问题还没有答案 I use a UIWebView加载以下 URL https buchung salonmeister de ort 301655 menue offerId 907601 venueId 301655 https
为什么 Android 没有出现在 Eclipses 的首选项中？

我已经按照以下方式安装了 Android 开发者工具官方说明 http developer android com sdk index html 为什么选项卡没有出现在Windows gt Preferences as 他们说 http d
如何在Msbuild中设置SGEN工具路径以针对3.5框架

我刚刚将一个项目从 VS2008 升级到 VS2010 但我仍然以 3 5 框架为目标在我的项目文件中我有一个自定义任务来运行 SGEN 以生成 XmlSerializers dll 然而正在运行的 sgen 版本针对的是 4 0 框
尽管使用两级命名空间编译，但库仍需要平面命名空间中的符号

我动态加载Pythondlopen and RTLD LOCAL以避免与另一个库发生冲突该库碰巧包含一些同名的符号执行我的MVCE上面在 macOS 上使用 Xcode 失败了因为它期望 PyBuffer Type在全局命名空间中 T
如何编写带有时区但没有时间部分的 ISO 8601 日期

An ISO 8601 日期时间 https en wikipedia org wiki ISO 8601 Combined date and time representations带有时区的格式如下 2018 09 07T05 28 4
“条件表达式只能是布尔值，不能是整数。”是什么意思？意思是？

条件表达式只能是布尔值不能是整数是什么意思意思是我不知道Java 我知道C 但不足以理解它的含义请帮忙在http www javacoffeebreak com articles thinkinginjava comparing
从通知启动意图时出现“从非活动上下文服务调用 startactivity”警告

I ve a service这开始了一个notification with startForeground 我希望通知在单击时启动活动 The acitivty我想启动定义为android launchMode singleTask 通常在
Python 无法使用 surrogateescape 进行编码

我在 Python 3 4 中遇到 Unicode 代理编码问题 gt gt gt b xCC decode utf 16 be surrogateescape encode utf 16 be surrogateescape Traceb
在 Zend Autoloader 中找不到 PHPExcel 类

我在 Zend Framework 中的命名空间上遇到了困难至少我认为这是一个命名空间问题我想将 PHPExcel 集成到我的 Zend 项目中相关文件结构如下 library ABCD PHPExcel Zend ZendX PHP
梯度检查到底是什么？

我是深度学习的初学者我想到了梯度检查的概念我只是想知道它是什么以及它如何帮助改进培训过程为什么我们需要梯度检查反向传播作为一种算法有很多细节并且实现起来可能有点棘手一个不幸的特性是有很多方法可以在后支撑中产生微妙的错误因
Ninject 到动作过滤器中

我创建了一个自定义操作过滤器并将其与 Ninject 的 BindFilter 方法绑定 public class ExtendModelAttribute FilterAttribute public class ExtendModel
如何在 Laravel 4 中的路由组上应用多个过滤器？

Goal 我想使用 Laravel 4 中的路由过滤器Route group and Route filter 描述我有两种类型的用户内部的经销商 For Internal 我有 2 组 admin regular For Distr
ASP.NET 应用程序转到 500.21 ...直到 IIS 重置 + 清除临时 ASP.NET 缓存

我们在 QA 实验室中看到了一种奇怪的模式我们有两个 ASP NET 应用程序每个应用程序都部署在同一个 Windows 2008 SP2 机器上我们的应用程序池在域帐户中运行并设置为永不回收两个应用程序使用相同的 1 个应用程序
Facebook 建议忽略 og:title 直到页面刷新

我有 Facebook 推荐按钮的典型 HTML5 实现 div div
不同与分组哪个更好

最简单的情况我们都参考 select id from mytbl group by id and select distinct id from mytbl 正如我们所知它们生成相同的查询计划该计划在某些项目中反复提到例如哪个更好不

不同与分组哪个更好

不同与分组哪个更好 的相关文章

随机推荐

热门标签

不同与分组哪个更好的相关文章