增加 Hadoop 2 中 Hive 映射器的数量

2024-01-17

我从 Hive 创建了一个 HBase 表，并尝试对其进行简单的聚合。这是我的 Hive 查询：

from my_hbase_table 
select col1, count(1) 
group by col1;

地图缩减作业仅产生 2 个映射器，我想增加它。对于普通的映射缩减作业，我将配置纱线和映射器内存以增加映射器的数量。我在 Hive 中尝试了以下方法，但没有成功：

set yarn.nodemanager.resource.cpu-vcores=16;
set yarn.nodemanager.resource.memory-mb=32768;
set mapreduce.map.cpu.vcores=1;
set mapreduce.map.memory.mb=2048;

NOTE:

我的测试集群只有2个节点
HBase表超过5M条记录
Hive 日志显示 HiveInputFormat 和分割数 = 2

将文件分割为小于默认值并不是一个有效的解决方案。 Spiting主要用于处理大数据集。默认值本身很小，因此不值得再次拆分。

我建议您在查询之前进行以下配置。您可以根据您的输入数据应用它。

set hive.merge.mapfiles=false;

set hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;

set mapred.map.tasks = XX;

如果您还想分配减速器的数量，则可以使用以下配置

set mapred.reduce.tasks = XX;

请注意，在 Hadoop 2 (YARN) 上，mapred.map.tasks and mapred.reduce.tasks已弃用并被其他变量取代：

mapred.map.tasks     -->    mapreduce.job.maps
mapred.reduce.tasks  -->    mapreduce.job.reduces

请参阅下面与此相关的有用链接

http://answers.mapr.com/questions/5336/limit-mappers-and-reducers-for-specific-job.html http://answers.mapr.com/questions/5336/limit-mappers-and-reducers-for-specific-job.html

增加Hive Mapper任务失败？ https://stackoverflow.com/questions/20816726/fail-to-increase-hive-mapper-tasks

映射器如何分配

映射器的数量由 MapReduce 作业中使用的 InputFormat 确定的分割数决定。在典型的InputFormat中，它与文件数量和文件大小成正比。

假设您的 HDFS 块配置配置为 64MB（默认大小）并且您有一个大小为 100MB 的文件那么它将占用 2 个块，然后将根据块分配 2 个映射器

但假设如果你有 2 个 30MB 大小的文件（每个文件），那么每个文件将占用一个块，并且映射器将获得分配基于此。

当您处理大量小文件时，Hive 默认使用CombineHiveInputFormat。就MapReduce而言，它最终转化为使用CombineFileInputFormat创建虚拟分割多个文件，如果可能的话按公共节点、机架分组。组合分割的大小由下式确定

mapred.max.split.size
or 
mapreduce.input.fileinputformat.split.maxsize ( in yarn/MR2);

因此，如果你想要更少的分割（更少的映射器），你需要将此参数设置得更高。

此链接对于了解更多信息很有用。

每个 Hadoop 映射器将读取的默认大小是多少？ https://stackoverflow.com/questions/17852838/what-is-the-default-size-that-each-hadoop-mapper-will-read

此外，映射器和减速器的数量始终取决于集群的可用映射器和减速器插槽。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

增加 Hadoop 2 中 Hive 映射器的数量的相关文章

如何使用 Apache POI API 将图像添加到 pptx 中添加的图像占位符？

我已经预定义了带有文本和图像占位符的 pptx 模板我如何从模板访问和修改这些占位符我可以使用 POI pptx API 直接将图像和文本添加到幻灯片中但如何将其添加到模板的占位符中请参阅链接以了解如何添加占位符来创建固定模板 ht
如何使用 Java 中的 Web 服务（例如 Axis2）发送复杂对象的数组或集合？

我对 SOAP Web 服务还比较陌生虽然我完成了一些较小的 Web 服务项目但我偶然从来不需要返回或用作参数复杂对象的数组或集合当我尝试这样做时根据我的 SOAP 绑定风格我会得到不同的奇怪行为当我使用RPC 文字我可
插入最大日期（独立于数据库）

在我的本地设置中我使用一个简单的 H2 数据库托管解决方案将有另一个类似但不相同数据库我需要将最大可能日期插入到日期时间列中我尝试使用 Instant MAX 但是这会导致列中出现 169104626 12 11 20 08
是什么决定了从 lambda 创建哪个函数式接口？

请考虑这个例子 import java util function Consumer public class Example public static void main String args Example example new
org.apache.sling.api.resource,version=[2.3,3) -- 无法解析

您好我无法访问我的项目内容我已经上传了从 CQ 访问内容所需的所有包我唯一能看到的是 org apache sling api resource version 2 3 3 无法解析这是否是异常的原因如果是请告诉我如何解决中Q
正则表达式拆分数字和字母组，不带空格

如果我有一个像 11E12C108N 这样的字符串它是字母组和数字组的串联如何在中间没有分隔符空格字符的情况下分割它们例如我希望分割结果为 tokens 0 11 tokens 1 E tokens 2 12 tokens 3 C
JAVA - Xuggler - 组合 MP3 音频文件和 MP4 电影时播放视频

使用 JAVA 和 Xuggler 以下代码组合 MP3 音频文件和 MP4 电影文件并输出组合的 mp4 文件我希望在合并音频和视频文件时应自动播放输出视频文件 String inputVideoFilePath in mp4 Stri
JavaFX 中具有自定义内容的 ListView

How i can make custom ListView with JavaFx for my app I need HBox with image and 2 Labels for each line listView 您可以通过查看
Java 文件上传速度非常慢

我构建了一个小型服务它从 Android 设备接收图像并将其保存到 Amazon S3 存储桶中代码非常简单但是速度非常慢事情是这样的 public synchronized static Response postCommentP
在 Netbeans 8 上配置 JBoss EAP 的问题

我已经下载了 JBoss EAP 7 并正在 Netbeans 8 上配置它我已经到达向导实例属性其中要求从选择框中选择域当我打开选择框时它是空的没有什么可以选择的因此完成按钮也处于非活动状态这使得无法完成配置我通过
以编程方式在java的resources/source文件夹中创建文件？

我有两个资源文件夹 src 这是我的 java 文件资源这是我的资源文件图像 properties 组织在文件夹包中有没有办法以编程方式在该资源文件夹中添加另一个 properties 文件我尝试过这样的事情 public s
编辑文件名在 JComboBox 中的显示方式，同时保持对文件的访问

我对 Java 很陌生对堆栈溢出也很陌生我正在尝试利用 JMF API 创建一个用 Java 编码的简单媒体播放器到目前为止我已经能够设置一个简单的队列播放列表来使用JComboBox called playListHolder
Jersey 客户端请求中未设置 Content-Length-Header

我正在使用 Jersey Client 访问网络服务如下所示 response r accept MediaType TEXT PLAIN TYPE header content length 0 post String class 其中
如何知道抛出了哪个异常

我正在对我们的代码库进行审查有很多这样的陈述 try doSomething catch Exception e 但我想要一种方法来知道 doSomething 抛出了哪个异常在 doSomething 的实现中没有 throw 语句
java.lang.NumberFormatException: Invalid int: "3546504756"，这个错误是什么意思？

我正在创建一个 Android 应用程序并且正在从文本文件中读取一些坐标我在用着Integer parseInt xCoordinateStringFromFile 将 X 坐标转换为整数 Y 坐标的转换方法相同当我运行该应用程序时
Netty：阻止调用以获取连接的服务器通道？

呼吁ServerBootstrap bind 返回一个Channel但这不是在Connected状态因此不能用于写入客户端 Netty 文档中的所有示例都显示写入Channel从它的ChannelHandler的事件如channelCon
将 Azure AD 高级自定义角色与 Spring Security 结合使用以进行基于角色的访问

我创建了一个演示 Spring Boot 应用程序我想在其中使用 AD 身份验证和授权并使用 AD 和 Spring Security 查看 Azure 文档我执行了以下操作 package com myapp contactdb c
spring中如何使用jackson代替JdkSerializationRedisSerializer

我在我的一个 Java 应用程序中使用 Redis 并且正在序列化要存储在 Redis 中的对象列表但是我注意到使用 RedisTemplate 会使用 JdkSerializationRedisSerializer 相反我想使用 J
Eclipse 中 Spring MVC 模型对象的 (jsp /jstl) 视图中的代码辅助

在 Spring MVC 中当将对象放置在视图模型中时如下所示 public String getUser Model model fetch user model addAttribute user user return viewN
具有特定参数的 Spring AOP 切入点

我需要创建一个我觉得很难描述的方面所以让我指出一下想法 com x y 包或任何子包中的任何方法一个方法参数是接口 javax portlet PortletRequest 的实现该方法中可能有更多参数它们可以是任何顺序我需要

随机推荐

如何在 Elm 中打印所选选项的索引？

我有一个
c中sizeof函数内的赋值[重复]

这个问题在这里已经有答案了 foo a b c new value of a after the call b c but sizeof a b c new value of a old value of a 在后一种情况下为什么赋值语句
给定一个 [Int] 类型的函数参数；可以限制它不为空吗？

请考虑以下事项 func example array Int guard array count gt 0 else return Do something 最好通过函数签名来宣布限制是否可以对参数进行约束相当于 func exampl
用于保留大小写模式、大小写的正则表达式

主要问题是否有一个正则表达式可以保留案例模式 U and L 理想情况下它也会尊重单词边界和锚点 Example 假设我们有大量文本我们想要将一个单词转换为另一个单词同时保留单词的大小写例如替换所有实例 date with mo
更多 GCC 链接时间问题：对 main 的未定义引用

我正在为 Cortex A8 处理器编写软件并且必须编写一些 ARM 汇编代码来访问特定寄存器我正在使用 GNU 编译器和相关工具链这些工具安装在带有 Ubuntu 的处理器板 Freescale i MX515 上我使用 WinS
如何更改默认文化？

我使用 ASP NET Core 创建了我的第一个应用程序当我调试它时我发现带有重音符号的单词有问题如何正确本地化应用程序 Update 我尝试实施乔的建议但没有得到预期的结果正如您在此图中看到的那样从数据库显示的字符串没问题
如何从信使聊天头服务等服务中检测后退按钮/主页按下？

我一直在浏览几个 stackoverflow 问题以了解如何使用 Windows 管理器监听服务上的后按按钮大多数答案都表明这是不可能的但是我可以看到 Messenger 处理得很好 Messenger 如何处理其头部聊天服务上的后按
使用 C# 通过互联网进行最简单的双向通信

我可以使用什么来通过互联网进行双向通信而无需在客户端打开端口尽管在服务器端一切皆有可能但用户不会同意在客户端打开端口并进行端口转发但是我需要完成双向通信我该如何实现这一目标无论是 WCF 远程处理还是 Web 服务这并不重要
Haskell：如何在纯函数中产生副作用

我是一个 Haskell 初学者我对如何在一些纯函数中呈现一些副作用感到困难即一个非常简单的函数size功能 size Int gt StateT Int IO size fmap x gt do num lt get put num
如何将 Backbone.Marionette.ItemView 与 Mustache 一起使用

使用以下代码可以正常工作Backbone Marionette ItemView但不是Mustache Backbone Marionette ItemView 无小胡子 http jsfiddle net derickbailey me4
“Series”对象没有属性“applymap”

我正在尝试对我的数据集使用 applymap 将浮点数创建为整数但我收到 Series 对象没有属性 applymap 错误 import pandas as pd import matplotlib as mpl import matp
恢复应用程序后，TextureView 抛出致命信号 11

我有一个基于Romain Guy示例的TextureView 可以找到here http pastebin com J4uDgrZ8 在 Android 4 3 和 4 4 上经过几轮暂停和恢复应用程序后应用程序崩溃唯一的错误痕迹是
尝试在 C# 中清除打印队列时访问被拒绝

我正在尝试在 C 中创建一个方法来清空打印队列中的所有项目下面是我的代码 LocalPrintServer localPrintServer new LocalPrintServer PrintSystemDesiredAccess Ad
Swift：成为 UITextField 上的第一响应者不起作用？

我在 Storyboard 上创建了一个带有一个 UITextField 的自定义 UIViewController 在viewDidLoad 我将 UITextFIeld 设置为becomeFirstResponder 什么也没发生没有
从 PHP7 调用 Mongodb 存储函数

下面是我存储在 Mongodb 中的 mongodb 函数 db system js save id echoFunction value function x return x 我可以使用以下查询在 mongo 中调用此函数 db loa
使用 JWT 处理过期/“记住我”功能

从概念上讲我真的很喜欢 JWT 因为它符合 REST 等的无状态性没有状态保存服务器端所有相关数据都包含在令牌中我不确定的是未连接时如何处理令牌过期即记住我功能网络上有关于 JWT 的新兴报道但我还找不到任何人回答过期问
WPF MouseLeftButtonUp 未触发

当我使用MouseUp事件我可以通过单击鼠标右键来触发它但MouseLeftButtonUp任何点击都不会触发
在 Delphi 7 中制作 TPageControl 平面

我不知道这个问题是否可以在这里得到解答但我希望能够我在 Delphi 7 中编写了一个简单的文本编辑器作为我在 Windows 下编写 C 代码的主要 IDE 我在虚拟机中运行 Windows 我需要一些简单的东西无论如何它使用
WPF：缩放路径的正确方法？

我有一条路径看起来像椭圆形
增加 Hadoop 2 中 Hive 映射器的数量

我从 Hive 创建了一个 HBase 表并尝试对其进行简单的聚合这是我的 Hive 查询 from my hbase table select col1 count 1 group by col1 地图缩减作业仅产生 2 个映射器我

增加 Hadoop 2 中 Hive 映射器的数量

增加 Hadoop 2 中 Hive 映射器的数量 的相关文章

随机推荐

热门标签

增加 Hadoop 2 中 Hive 映射器的数量的相关文章