用mapreduce来操作hbase的两点优化

2023-11-04

用mapreduce来操作hbase的两点优化

用MR来对hbase的表数据进行分布式计算。有两点配置可以优化操作，提升性能。它们分别是：

(1)scan.setCacheBlocks(false);

然后调用下面这句来初始化map任务 TableMapReduceUtil.initTableMapperJob

这个配置项是干什么的呢？本次mr任务scan的所有数据不放在缓存中，一方面节省了交换缓存的操作消耗，可以提升本次mr任务的效率，另一方面，一般mr任务scan的数据都是一次性或者非经常用到的，因此不需要将它们替换到缓存中，缓存中还是放一些正常的多次访问的数据，这样可以提升查询性能。

(2)conf.setBoolean("mapred.map.tasks.speculative.execution", false);

这个 "mapred.map.tasks.speculative.execution" 配置项是干什么用的呢？

是否开启mr的map备用任务机制，如果设为true，则如果一个map任务占用时间较其他的明显长很多（策略由内部设置），在其他TT节点上新建一个map任务，两个一起做，谁先做完，便结束。

优化项是将其设为false，为何呢，跟hbase存储机制有关，hbase本地存储机制，即hbase会尽量把hdfs上的数据文件和rs上对应region存在一台机器上，即当前的map的数据肯定在当前的机器上有本地数据，不需要网络传输。如果启用备用任务机制，则新创建备用任务时，很有可能新建备用任务的机器上没有所需要的数据的备份，如此便需要网络传输数据，增加了网络的开销，其效率会大大的降低，还不如不开启备用任务，就让原来的map任务正常做呢。当然，即便关闭了此机制，如果创建map失败（比如由于oom异常）仍然会在其他节点上重新创建此map任务。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

用mapreduce来操作hbase的两点优化的相关文章

HBase Java 客户端 - 未知主机：localhost.localdomain

版本 Hadoop 2 0 0 cdh4 3 1 HBase 0 94 6 cdh4 3 1 我正在运行cloudera快速启动vm 一切都在172 16 144 150上运行这是我的小HBase Java客户端 HbaseClient
Hadoop YARN 作业陷入映射 0% 并减少 0%

我正在尝试运行一个非常简单的作业来测试我的 hadoop 设置所以我尝试使用 Word Count Example 它陷入了 0 所以我尝试了一些其他简单的作业并且每个作业都陷入了困境 52191 0003 14 07 14 23 55
MapReduce 排序和洗牌如何工作？

我正在使用 yelps MRJob 库来实现映射缩减功能我知道 MapReduce 有一个内部排序和洗牌算法它根据键对值进行排序所以如果我在地图阶段后得到以下结果 1 24 4 25 3 26 我知道排序和洗牌阶段将产生以下输出 1
Hive 上的自定义 MapReduce 程序，规则是什么？输入和输出怎么样？

我被困了几天因为我想根据我在 hive 上的查询创建一个自定义的地图缩减程序在谷歌搜索后我发现没有太多例子而且我仍然对规则感到困惑创建自定义 MapReduce 程序的规则是什么映射器和减速器类怎么样任何人都可以提供任何解决方案
如何在hadoop/map reduce中创建固定行数的输出文件？

假设我们有 N 个具有不同行数的输入文件我们需要生成输出文件使得每个输出文件恰好有 K 行最后一个输出文件可以有是否可以使用单个 MR 作业来完成此操作我们应该打开文件以便在reducer中显式写入输出中的记录应该被打乱 tha
远程执行hadoop作业时出现异常

我正在尝试在远程 hadoop 集群上执行 Hadoop 作业下面是我的代码 Configuration conf new Configuration conf set fs default name hdfs server 9000 c
mongodb 聚合随机化（shuffle）结果

我正在浏览一堆 mongo 文档但找不到洗牌或随机化结果内容的可能性有没有特别是对于聚合框架本身来说实际上并没有任何本地方法因为还没有可用的运算符来执行诸如生成随机数之类的操作因此无论您可能投射一个字段进行排序的任何匹配都不
为什么组合器输入记录的数量比映射的输出数量多？

Combiner 在 Mapper 之后 Reducer 之前运行它将接收给定节点上的 Mapper 实例发出的所有数据作为输入然后它将输出发送到Reducers 因此组合器输入的记录应小于映射输出的记录 12 08 29 13 38
Sqoop - 绑定到 YARN 队列

因此使用 MapReduce v2 您可以使用绑定到某些 YARN 队列来管理资源和优先级基本上通过使用 hadoop jar xyz jar D mapreduce job queuename QUEUE1 input output
Hadoop 推测任务执行

在Google的MapReduce论文中他们有一个备份任务我认为这与Hadoop中的推测任务是一样的推测任务是如何实现的当我启动一项推测任务时该任务是从一开始就作为较旧且缓慢的任务开始还是从较旧的任务到达的位置开始如果是这样
如何在 MapReduce 作业中导入自定义模块？

我有一个 MapReduce 作业定义在main py 它导入了lib模块来自lib py 我使用 Hadoop Streaming 将此作业提交到 Hadoop 集群如下所示 hadoop jar usr lib hadoop mapr
无法在 Hadoop Map-Reduce 作业中加载 OpenNLP 句子模型

我正在尝试将 OpenNLP 集成到 Hadoop 上的 Map Reduce 作业中从一些基本的句子分割开始在地图函数中运行以下代码 public AnalysisFile analyze String content InputS
HBase、Hadoop：如何估计 HBase 表或 Hadoop 文件系统路径的大小？

我有多个 HBase 表如何估计在 java 中使用的表的大致大小一种方法是你必须使用java客户端访问hdfs 通常在 hbase文件夹所有表格信息将在场 Hadoop 外壳你可以检查使用hadoop fs du h path
无法通过 Hbase 客户端从 Titan 连接到 Google Bigtable

我正在尝试使用 Hadoop 2 HBase 1 0 2 客户端连接到 Titan 1 0 0 可在https github com thinkaurelius titan wiki Downloads https github com
Apache Spark 何时发生混洗？

我正在优化 Spark 中的参数并且想确切地了解 Spark 是如何对数据进行洗牌的准确地说我有一个简单的字数统计程序并且想知道spark shuffle file buffer kb如何影响运行时间现在当我将此参数设置得非常高
是否可以通过编写单独的mapreduce程序并行执行Hive查询？

我问了一些关于提高 Hive 查询性能的问题一些答案与映射器和减速器的数量有关我尝试使用多个映射器和减速器但在执行中没有看到任何差异不知道为什么可能是我没有以正确的方式做或者我错过了其他东西我想知道是否可以并行执行 Hive
Protobuf RPC 在 Hadoop 2.2.0 单节点服务器上不可用？

我正在尝试在按照本教程安装的本地单节点集群上运行 hadoop 2 2 0 mapreduce 作业 http codesfusion blogspot co at 2013 10 setup hadoop 2x 220 on ubuntu
Hadoop - 直接从 Mapper 写入 HBase

我有一个 hadoop 作业其输出应写入 HBase 我并不真正需要减速器我想要插入的行类型是在映射器中确定的如何使用 TableOutputFormat 来实现此目的从所有示例中我看到的假设是 reducer 是创建 Put 的
Mongodb 聚合数组中的子文档

我正在使用 mongodb 作为后端实现一个小型应用程序在此应用程序中我有一个数据结构其中文档将包含一个包含子文档数组的字段我使用以下用例作为基础 http docs mongodb org manual use cases inv
如何从spark中的hbase表中获取所有数据

我在 hbase 中有一个大表名称为 UserAction 它具有三个列族歌曲专辑歌手我需要从歌曲列族中获取所有数据作为 JavaRDD 对象我尝试了这段代码但效率不高有更好的解决方案来做到这一点吗 static Spa

随机推荐

docker gpu 创建训练环境_基于虚拟化的模型训练平台实践

写在前面近几年人工智能快速发展与各行各业的结合也成为业界不断探索的方向在金融科技领域风控逐步从传统风控转向大数据风控以及智能风控主要通过人工智能核心技术知识图谱机器学习深度学习作为主要驱动力为金融业的各参与主体各业务
金山卫士开源软件之旅(四) netmon下FwProxy工程的解析---接口实现及接口使用方法

转载请标明是引用于 http blog csdn net chenyujing1234 上一篇文章 lt lt 金山卫士开源软件之旅三 netmon下FwProxy工程的解析 COM组件的管理模式 gt gt 中讲到如何去实现CFwPro
中小企业数字化转型难?为什么不试试“企业级”无代码平台

首先让我们思考一下中小企业为什么要进行数字化转型随着全球经济的数字化趋势日益明显中小企业作为经济的重要组成部分其数字化转型已成为推动经济高质量发展的关键数字技术可以帮助中小企业提高生产效率降低成本提升产品质量和创新能力从而
基于matlab实现的水果识别系统设计

水果识别摘要本项目针对多种常见水果混合的图像利用 Matlab 软件对水果的识别进行研究根据水果和背景的差别选取阈值对去噪增强对比度后的图像进行二值化处理再对图像进行边缘检测选定连通区域标记后再对不同种水果的颜色形状大
【机器学习】机器学习实验二：支持向量机（详细代码展示）

文章目录一项目地址二实验二的详细代码一项目地址 https mbd pub o bread ZJWampxx 二实验二的详细代码手动调参
Mysql递归查询子级（父子级结构）&从子级ID查询所有父级（及扩展知识）

文章目录 1 建表及插入数据 2 递归查询子级包括or不包括自己递归查询子级sql 可能存在的问题处理这个存在的问题可借鉴的扩展参考重要 mysql根据父节点递归查询所有子节点根据一个父节点查询所有子节点包含自身根据多个父节
React 项目怎么引入自定义组件、传递参数到组件

1 首先需要在使用组件的页面引入自定义组件 src index js 是一个入口文件我们也可以在这里引用 import React Suspense Component from react 引入自定义组件 import ReactDOM
Python番外篇：用Pygame制作一场漂亮的流星雨

hello 大家好我是wangzirui32 今天我们来学习如何用Pygame制作一场漂亮的流星雨开始学习吧文章目录前言 1 素材图片 2 项目结构 3 编写代码 3 1 Star类 3 2 主项目demo py 4 效果展示写在
详解linux下的串口通讯开发

串行口是计算机一种常用的接口具有连接线少通讯简单得到广泛的使用常用的串口是RS 232 C接口又称EIA RS 232 C 它是在1970年由美国电子工业协会 EIA 联合贝尔系统调制解调器厂家及计算机终端生产厂家共同制定的用于
【UE4】纯蓝图实现数据表(DataTable)的写入存储

前言 UE4可以方便的实现表格的读取通常是将csv表格文件按对应表头结构体导入后作为引擎内的DataTable类型文件再进行使用读取DataTable的操作可以通过GetDataTableRowNames和GetDataTableR
简单介绍使用图片 base64 编码的优点和缺点。

base64 编码是一种图片处理格式通过特定的算法将图片编码成一长串字符串在页面上显示的时候可以用该字符串来代替图片的 url 属性使用 base64 的优点是 1 减少一个图片的 HTTP 请求使用 base64 的缺点是 1
采用定时器指令和比较指令控制多台电动机顺序起动、逆序停止

实验要求在一些机械的生产过程中经常需要到要求多台电动机的起动和停止按照一定的顺序进行例如要求三台电动机M1 M2 M3在按下起动开关时电动机顺序启动起动的顺序为M1 M2 M3 顺序起动时时间的间隔为60秒启动完毕后电动机正常工
Python练习之选择与循环

目录 1 编写程序运行后用户输入4位整数作为年份判断其是否为闰年提示如果年份能被400整除则为闰年如果年份能被4整除但不能被100整除也为闰年 2 编写程序用户从键盘输入小于 1000 的整数对其进行因式分解例如 10 2
你好，语义分割（二）

在你好语义分割一中我们介绍了语义分割的概念数据的准备过程和模型设计并且使用数据加载器对数据进行训练集验证集和测试集的拆分接下来我们使用训练集对模型进行训练用来学习理想的参数 2 3 训练 Train 2 3 1 学习准
2019中科实数杯（ Q1内存镜像取证分析、Q4加密磁盘分析）

文章目录题目 Q1 内存取证 Q4 加密容器题目 Q1 内存取证 Q4 加密容器
pppoe路由桥混合模式_为什么宽带账号分路由模式和桥接模式？

我看了下他人的回答都是说的猫是怎么回事宽带连接相关的和这个问题根本不沾边的都在说光猫设备与宽带账号的设置根据我所知道的回答一下这个问题家庭的光猫大部分由路由模式和桥接模式无线路由器的WAN接口的连接方式由桥接模式 PPPOE拨
Spark原理-SparkSql框架优化策略

有了SparkCore为什么还要有SparkSql呢有两大原因一是SparkCore只能用Api 这就把很多SqlBoy拒之门外 Spark就无法发扬光大了二是使用Api时用户编写的函数作为一个个闭包被序列化后分发到Executor执
kubesphere devops使用

一创建项目 1 创建项目企业管理员切换到相应企业空间租户创建项目 k8s集群会创建一个相同名字的namespace 如下图所示管理员创建一个ipaas devops项目 2 创建镜像拉取密钥信息进入项目如ipaas devops
elasticsearch7.0 通过api 分页查询产生的问题

Result window is too large from size must be less than or equal to 10000 but was 44232 See the scroll api for a more eff
用mapreduce来操作hbase的两点优化

用mapreduce来操作hbase的两点优化用MR来对hbase的表数据进行分布式计算有两点配置可以优化操作提升性能它们分别是 1 scan setCacheBlocks false 然后调用下面这句来初始化map任务 Table

用mapreduce来操作hbase的两点优化

用mapreduce来操作hbase的两点优化 的相关文章

随机推荐

热门标签

用mapreduce来操作hbase的两点优化的相关文章