Hive 左外连接长期运行

2024-03-28

Hortonworks HDP 2.3.0 - Hive 0.14

Table T1 ( partition on col1, no bucket, ORC )应用程序 1.2 亿行和 6GB 数据大小Table T2 ( partition on col2, no bucket, ORC )应用程序 2 亿行和 6MB 数据大小

T1 left outer join on t2 ( t1.col3 = t2.col3 )

上面的查询在 tez 和 mr 模式下的最后一个减速器阶段都长时间运行。我还尝试了自动转换真/假和显式映射连接。

查询仍然在最后一个减速器阶段运行，永远不会结束。

仅供参考 - 如果 T2 的数据大小为 9k 或 1GB，则查询完成。

问题可能是每个减速器有太多字节/行。如果应用程序执行卡在最后single那么很可能是数据倾斜。要检查它，请从两个表中选择前 5 个 col3，倾斜是指有大量记录具有相同键值（例如 30%）。如果是倾斜，则尝试单独加入倾斜键，然后将所有其他键加入 UNION ALL。像这样的事情：

select * from
T1 left outer join on t2 on ( t1.col3 = t2.col3 ) and t1.col3=SKEW_VALUE
union all
select * from
T1 left outer join on t2 on ( t1.col3 = t2.col3 ) and t1.col3<>SKEW_VALUE

如果应用程序执行卡在最后一个reducer阶段，没有一个reducer或很少的reducer，那么检查bytes.per.reducer hive设置，可能它太高了。

set hive.exec.reducers.bytes.per.reducer=67108864;

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hive 左外连接长期运行的相关文章

Spark SQL sql("").first().getDouble(0) 给我不一致的结果

我有下面的查询它应该找到列值的平均值并返回一个数字的结果 val avgVal hiveContext sql select round avg amount 4 from users payment where dt between 2
如何将 Pandas 数据框保存到配置单元表？

我有 pandas 数据框我正在尝试找到将数据框数据保存到配置单元表的最佳方法一种方法是保存到 csv 文件并将其加载到 hive 表有一个更好的方法吗 None
Java8：使用 Stream / Map-Reduce / Collector 将 HashMap 转换为 HashMap

我知道如何改造一个简单的JavaList from Y gt Z i e List
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
在 Streamreduce 方法中，求和时恒等式必须始终为 0，乘法时恒等式必须始终为 1？

我继续java 8学习我发现了一个有趣的行为让我们看一下代码示例 identity value and accumulator and combiner Integer summaryAge Person getPersons stre
Mapreduce shuffle 阶段出现内存不足错误

我在运行时遇到奇怪的错误类似字数统计映射缩减程序我有一个包含 20 个从站的 hadoop 集群每个从站都有 4 GB RAM 我将 Map 任务配置为 300MB 堆 Reduce 任务槽为 1GB 我每个节点有 2 个映射槽和 1
PyMongo 中的 MapReduce

我的蒙戈收藏 Impressions具有以下格式的文档 uid 10 impressions pos 6 id 123 service furniture pos 0 id 128 service electronics pos
在 RavenDB 中创建更多类似的内容

我的域中有这些文档 public class Article public string Id get set some other properties public IList
减少 JavaScript 中的对象数组

我在 javascript 中有一个想要减少的对象数组请参阅下面的代码 6 位或以上的消息已验证较少的消息未验证我将他们按组分组 const myArray group groupA message Text without a nu
Aws Athena - 重命名列名称

我正在尝试更改 AWS Athena 表中的列名称从old name to new name 普通的DDL命令不会影响表它们无法执行是否可以更改列名而不从头开始删除并重新创建表我错了雅典娜使用HIVE DDL语法所以正确的命令是
Spark引擎执行SQL时如何获取hive UDF中Spark的partitionId或taskContext？

例如我们用Spark引擎执行下面的SQL 我们需要my udf row 返回 Spark 中的分区 id add jar hdfs dir udf udf jar create temporary function my udf as co
使用 MySQL 作为元存储从 HIVE 查询元数据

我正在寻找一种使用 HiveQL 命令查询 HIVE 数据元数据的方法我配置了一个 MySQL 元存储但需要通过 HIVE 命令查询元数据因为然后我想通过 ODBC 连接到 HIVE 系统来访问数据要从 Hive 查看它们必须使用
Protobuf RPC 在 Hadoop 2.2.0 单节点服务器上不可用？

我正在尝试在按照本教程安装的本地单节点集群上运行 hadoop 2 2 0 mapreduce 作业 http codesfusion blogspot co at 2013 10 setup hadoop 2x 220 on ubuntu
与 PostgreSQL CTE 的一般并行性

我正在处理一些大数据并且在查询中获取并行计划是必要的我也很喜欢使用 CTE 来表达我的查询但根据 PostgreSQL 的文档我不太确定 CTE 是否对并行性造成严重限制 Here https www postgresql org
为什么 Spark 比 Hadoop MapReduce 更快

有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面但我想补充另外两个重要事实 DAG和生态系统 Spark 使用惰性求值来形成连续计算阶段的有向无环图 DAG 通过
如何修复“任务尝试_201104251139_0295_r_000006_0 未能报告状态 600 秒”。

我编写了一个 MapReduce 作业来从数据集中提取一些信息该数据集是用户对电影的评分用户数量约25万电影数量约30万地图的输出是
Hadoop 减速器数量配置选项优先级

以下3个设置reduce数量的选项的优先级是什么换句话说如果三者都设置了会考虑哪一个呢 Option1 setNumReduceTasks 2 within the application code Option2 D mapredu
插入 Hive 表 - 非分区表到具有多个分区的分区表 - 无法插入目标表，因为列号/类型

当我尝试插入分区表时出现以下错误 SemanticException 错误 10044 第 1 23 行无法插入目标表因为列号类型不同表 insclause 0 有 6 列这 3 列已分区我们不需要任何必须从中转储存储的过滤器
如何从spark中的hbase表中获取所有数据

我在 hbase 中有一个大表名称为 UserAction 它具有三个列族歌曲专辑歌手我需要从歌曲列族中获取所有数据作为 JavaRDD 对象我尝试了这段代码但效率不高有更好的解决方案来做到这一点吗 static Spa
如何配置Hive仓库路径？

我修改了这部分

随机推荐

C++ 绘图包 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我有一个关于 c 绘图包的问题过去几年我一直在使用 python 和 matplotlib 现在我使用
条件编译和非类型模板参数

我无法理解非类型模板参数并希望有人能够阐明这一点 include
Cuda 和 OpenAI Whisper：强制使用 GPU 而不是 CPU 不起作用？

tldr 我的假设正确吗 torch cuda init device cuda and result model transcribe etc 应该足以强制使用 GPU 吗我检查了几个论坛帖子但找不到解决方案抱歉如果这很愚蠢我也
php多个if条件

当我尝试过滤所有这些参数时 php 只输入第一个 if 条件忽略所有其他条件 if t red lt 0 t red 0 else if t red gt 256 t red 255 else if t green lt 0 t red
为什么数组中的值保留在 while 循环中？ (VB.NET)

如果我在该行放置一个断点currentrow MyParser ReadFields currentrow 仍然包含从文件解析的上一行的值后currentrow MyParser ReadFields 执行时存储当前文件行值由于 cu
如何在C#中获得拉普拉斯方差

简而言之我试图使用 OpenCVSharp 作为 C 函数的一部分来计算图像的清晰度作为第一次尝试我使用了拉普拉斯滤波器如下所示 int kernel size 3 int scale 1 int delta 0 int ddept
比较器使用我的类的 String 字段进行比较？

我有一个 A 类型的对象列表我必须为 A 的一个 String 类型的字段对其进行排序 public class A public String field1 public Integer field2 如果我必须订购 int 字段我会
如何理解android绘制完视图？ [复制]

这个问题在这里已经有答案了可能的重复 Activity什么时候完成自己的绘制 https stackoverflow com questions 3171216 when has the activity finished drawing
我想计算 Watir 或 Selenium 中的页面加载时间

这是场景 1 Login to a web application with username and password and hit Enter Start timer 2 Load the login page lap timer s
Python。 argparse。删除不需要的参数

我正在解析一些命令行参数其中大多数需要传递给方法但不是全部 parser argparse ArgumentParser parser add argument d dir help Directory name type str de
Rails 中图像和 js/css 文件后的问号。为什么？

有谁知道为什么图像和css文件查看html代码时后面有问号带有数字我怎样才能将它们关闭 From Rails API 文档 http api rubyonrails com classes ActionView Helpers As
如何在 Laravel 4 中使用更新或插入？

我正在 Laravel 4 中构建一个应用程序我需要运行多个查询作为 UPDATE 或 INSERT 查询以避免重复插入时出现 PK 冲突我还没有找到任何方法来使用 Laravel 中的查询生成器来执行此操作我可以修改数据库类或类似
为什么接口不实现带有指针引用的方法，而仍然可以直接访问？

我确实理解接口没有按照 Go 规范和 FAQ 实现带有指针引用的方法因为 T 和 T 有不同的方法集 https golang org doc faq guarantee satisfies interface https golang
Elmah 对于其他 PHP

有没有一个Elmah https learn microsoft com en us aspnet web forms overview older versions getting started deploying web site p
奇怪的错误：无法渲染多边形

I use a MKMapView总共显示约 700 个注释我的问题是有时我会收到这样的巨大日志 2013 06 05 17 32 12 395 tiet 1493 1c52b Can t render polygon can t re
是否可以在解决方案中跨多个项目共享 web.config？（ASP.NET）

我有一个由 Web 应用程序和多个项目组成的解决方案是否可以在所有解决方案中共享 Web 应用程序中的配置 Thanks 我看起来是可能的你可以尝试以下操作您可以复制您的web config文件到解决方案的根文件夹然后创建解决方案文
异常 CX_SY_REF_IS_INITAL

我正在从类中设置方法调用 DATA r info TYPE REF TO zcl sv job offline ctrl CALL METHOD r info gt create EXPORTING is data lr test reco
为什么在托管模式下运行 GWT App Engine 应用程序时会出现 ClassNotPersistableException？

当我尝试对 GWT App Engine 应用程序的本地 JDO 数据存储执行查询时我随机收到 org datanucleus exceptions ClassNotPersistableException 仅当我在托管模式下运行应用程序
Python 的 difflib SequenceMatcher 加速

我使用 difflib SequenceMatcher ratio 方法来定义文本文件之间的相似性虽然 difflib 比较一小组文本文件的速度相对较快例如10 个 70 kb 的文件平均相互比较 46 次比较大约需要 80 秒这
Hive 左外连接长期运行

Hortonworks HDP 2 3 0 Hive 0 14 Table T1 partition on col1 no bucket ORC 应用程序 1 2 亿行和 6GB 数据大小Table T2 partition on col2

Hive 左外连接长期运行

Hive 左外连接长期运行 的相关文章

随机推荐

热门标签

Hive 左外连接长期运行的相关文章