Hbase集成到Hadoop的一些注意事项

2023-11-11

安装、部署hadoop和hbase的文章网上已经很多了,这里说下自己安装、部署时遇到的 一些问题。
1、  hadoop-env.sh的文件里添加:
export HADOOP_CLASSPATH=$HBASE_HOME/hbase-0.20.3.jar:$HBASE_HOME/conf: $HBASE_HOME/lib/zookeeper-3.2.2.jar
注意红色部分,网上的文档没提到,但不加的话利用Mapreduce提取Hbase数据时会说找不 到zookeeper相关类,还是加上省事!
(这里多说一点,个人觉得在 hadoop的文件里直接这样制定HADOOP_CLASSPATH不是很好,会导致其他在shell里指定export HADOOP_CLASSPATH=...的无效,估计是冲突了。其他各式各样的Mapreduce程序依赖的jar包总不能全部写到hadoop- env.sh里吧?所以,感觉把hbase和zookeeper两个jar包直接放到hadoop的lib下更好点!)
2、  启动Hbase时老启动不了,都是些链接的问题,这个时候要查查看机器的hosts设置是否正确。还有hbase的配置文件,如hbase- site.xml、regionservers等文件里的机器最好写域名,写ip它不认,不知道是不是版本问题。
3、  hbase-site.xml的配置:
<property>
    <name> hbase.rootdir</name>
    <value> hdfs://join191.hbase.xxx.net:9100/hbase</value>
    <description> </description>
  </property>
  <property>
    <name> hbase.master</name>
    <value> join191.hbase.xxx.net:60000</value>
    <description>The port master should bind to.</description>
  </property>
  <property>
    <name>hbase.cluster.distributed</name>
    <value>false</value>
    <description> </description>
  </property>
<property>
    <name>hbase.zookeeper.quorum</name>
    <value> join191.hbase.xxx.net</value>
    <description></description>
 </property>
其中hbase.rootdir的hdfs://join191.hbase.xxx.net:9100 与 hadoop(core-site.xml)中的fs.default.name对应,当然,hadoop的配置里可以用ip,hbase里得用域名。保 证格式路径一样就行。
Hbase.master在hbase- default.xml里是叫Hbase.master.port的,去掉port,把域名和端口写一起也可以。
如果是分布式的话,把上面的hbase.cluster.distributed设置为true, 并在hbase-env.sh里的设置export HBASE_MANAGES_ZK=true。
另外如果是把利用Mapreduce跑hbase程 序的工程打成jar包的话,个人偏向于把hbase-site.xml打进包里(线上的配置),这样省的node节点报一些zookeeper报一些错误 (因为这些光是在hbase里配置还不行,因为是利用hadoop的Mapreduce程序运行,hadoop需要知道hbase的这个配置。当然,把这 个配置指定到hadoop的classpath或放到hadoop的conf下应该也行,不过没试过)。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Hbase集成到Hadoop的一些注意事项 的相关文章

  • 更改spark_temporary目录路径

    是否可以更改 temporarySpark在写入之前保存临时文件的目录 特别是 由于我正在编写表的单个分区 因此我希望临时文件夹位于分区文件夹内 是否可以 由于其实现原因 无法使用默认的 FileOutputCommiter FileOut
  • 部署 Maven 项目抛出 java.util.zip.ZipException: invalid LOC header (badsignature)

    当我运行我的程序时 出现以下异常mvn install 我什至删除了本地存储库并再次运行 得到相同的异常 错误 未能执行目标 org apache maven plugins maven shade plugin 2 1 shade 默认
  • 连接到在 Docker 中运行的 HBase

    我无法连接到 Windows 上 Docker 中运行的 HBase banno hbase 独立 https registry hub docker com u banno hbase standalone 图像 但是 我可以连接到本地安
  • 如何用snappy解压hadoop的reduce输出文件尾?

    我们的 hadoop 集群使用 snappy 作为默认编解码器 Hadoop作业减少输出文件名就像part r 00000 snappy JSnappy 无法解压缩文件 bcz JSnappy 需要以 SNZ 开头的文件 归约输出文件以某种
  • 从 Eclipse 中的工作应用程序导出后出现 ClassNotFoundException

    因此 在将项目导出到可运行的 jar 后 我收到此消息 我很不明白为什么会这样 因为应用程序正在运行完美当我在 Eclipse 中选择 运行 时 我已经尝试过提取和打包可靠的库 但没有雪茄 有人知道该怎么办吗 Exception in th
  • Spark/Yarn:HDFS 上不存在文件

    我在 AWS 上设置了 Hadoop Yarn 集群 有 1 个主服务器和 3 个从服务器 我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行 我在客户端部署模式下测试了 Spark 作业 一切正常 当我尝试使用 Spa
  • 将数据从 .txt 文件加载到 Hive 中以 ORC 形式存储的表

    我有一个数据文件位于 txt格式 我正在使用该文件将数据加载到 Hive 表中 当我将文件加载到类似表中时 CREATE TABLE test details txt visit id INT store id SMALLINT STORE
  • MapReduce 中的分区到底是如何工作的?

    我认为我总体上对 MapReduce 编程模型有一定的了解 但即使在阅读了原始论文和其他一些来源之后 我仍然不清楚许多细节 特别是关于中间结果的分区 我将快速总结到目前为止我对 MapReduce 的理解 我们有一个可能非常大的输入数据集
  • 如何制作jar文件?

    如何从命令行和 Netbeans 6 7 生成 jar 文件 使用JAR http java sun com docs books tutorial deployment jar basicsindex html命令 jar cf jar
  • 没有函数映射到名称“coord:formatTime”

    我正在尝试使用 oozie 中的以下内容获取当前时间戳
  • “强制更新快照/版本” - 这是什么意思

    在 Maven 项目中 选择 更新项目 时 有一个名为 强制更新快照 版本 的选项 它有什么作用 强制更新快照 版本 就像运行以下命令 mvn U install U 也可以用作 update snapshot 看here http boo
  • 为什么 Spark 比 Hadoop MapReduce 更快

    有人可以使用字数统计示例解释一下为什么 Spark 比 MapReduce 更快吗 bafna的答案提供了故事的记忆方面 但我想补充另外两个重要事实 DAG和生态系统 Spark 使用 惰性求值 来形成连续计算阶段的有向无环图 DAG 通过
  • 匿名类上的 NotSerializedException

    我有一个用于过滤项目的界面 public interface KeyValFilter extends Serializable public static final long serialVersionUID 7069537470113
  • 如何使用 log4j 自定义附加程序在 HDFS 上创建日志?

    Overview 我们希望使用 log4j 记录 Spark 作业活动 并将日志文件写入 HDFS Java 8 Spark 2 4 6 Scala 2 1 2 Hadoop 3 2 1 我们无法找到本地 apache log4j 附加程序
  • 使用 HttpClient 的 .NET Core SPNEGO 身份验证

    我目前正在编写一个简单的基于 NET Core 的客户端 用于通过 WebHCat 与 Hadoop 集群进行交互 并且我正在尝试弄清楚如何使用 SPNEGO 进行身份验证 就像在curl 或 Powershell Core 等中一样 使用
  • 从 sbt 程序集运行 uber jar 会导致错误:无法找到或加载主类

    我有一个使用 sbt 程序集插件打包为 uber jar 的 Spark 作业 这build sbt指定一个可运行的 main 作为生成的 uber jar 的目标 mainClass in assembly Some com foo Ba
  • 如何从spark中的hbase表中获取所有数据

    我在 hbase 中有一个大表 名称为 UserAction 它具有三个列族 歌曲 专辑 歌手 我需要从 歌曲 列族中获取所有数据作为 JavaRDD 对象 我尝试了这段代码 但效率不高 有更好的解决方案来做到这一点吗 static Spa
  • Hive:为现有文件夹结构添加分区

    我在 HDFS 中有一个文件夹结构 如下所示 但是 实际上没有使用以下命令在表上创建分区ALTER TABLE ADD PARTITION命令 即使文件夹结构的设置就像表有分区一样 如何自动将所有分区添加到Hive表中 Hive 1 0 外
  • 谷歌的Dremel是什么?它与 MapReduce 有什么不同?

    谷歌的 Dremel 是此处描述 http research google com pubs pub36632 html Dremel 和 Mapreduce 有什么区别 Dremel http research google com pu
  • HIVE - 使用WITH CLAUSE插入覆盖

    我有一个生成的查询以WITH子句开头 当我在控制台中运行它时 当我尝试使用INSERT OVERWRITE运行查询以将输出加载到单独的配置单元表中时 该查询工作正常 INSERT OVERWRITE TABLE proc db master

随机推荐

  • Java 控制结构练习题

    练习1 某人有100 000元 每经过一次路口 需要交费 规则如下 1 当现金 gt 50000时 每次交5 2 当现金 lt 50000时 每次交1000 编程计算该人可以经过多少次路口 要求 使用while break方式完成 publ
  • opencv_contrib-master/modules/xfeatures2d/src/boostdesc.cpp:654:20: fatal error: boostdesc_bgm.i: No

    Hello i have downloaded opencv master and opencv contrib then tried to build opencv contrib using this command cmake DOP
  • Springcloud五大组件

    1 什么是springcloud springcloud是一系列框架的有序集合 它利用springboot的开发便利性巧妙地简化了分布式系统基础设施的开发 如服务发现注册 配置中心 消息总线 负载均衡 断路器 数据监控等 都可以用sprin
  • 提高代码阅读能力的7种方法

    原文 7 Ways to Improve Your Code Reading Skills 作者 A N M Bazlur Rahman 翻译 无阻我飞扬 摘要 随着越来越多的公司使用敏捷开发 能够阅读别人的代码比以往显得更重要 这就需要学
  • Python小项目:利用tkinter开发AI对战井字棋游戏

    文章目录 1 前言 2 代码分模块介绍 2 1 导入需要的库 2 2 定义全局变量 2 2 定义玩家类 2 3 定义页面类 2 4 定义页面变化类以及玩家与AI轮流转换下子权限 2 5 定义判断胜负类 2 6 定义智能AI下子类 3 整体代
  • java util.function.Supplier

    Interface Supplier
  • Java-模板方法设计模式

    Java 模板方法设计模式 1 概念 2 code举例 package p2 public class TemplateTest public static void main String args Template t new SubT
  • Web API-BOM- 操作浏览器

    Window对象 BOM Browser Object Model 是浏览器对象模型 window 对象下包含了 navigator location document history screen 5个属性 即所谓的 BOM 浏览器对象
  • h5手机端及pc端标准文档结构

    pc端
  • 为什么阻抗等于实加虚部呢?为什么有虚部呢,虚部是什么啊?

    为什么阻抗等于实加虚部呢 为什么有虚部呢 虚部是什么啊 2012 09 25 17 16 江山八秀 分类 物理学 浏览372次 提问者采纳 2012 09 25 17 40 电阻用实部表示 电抗用正的虚部表示 电容用负的虚部表示 一个器件的
  • 系列一、Fate简介及基于Docker的单机部署

    一 Fate简介 Fate是一个工业级联邦学习框架 所谓联邦学习指的就是可以联合多方的数据 共同构建一个模型 与传统数据使用方式相比 它不需要聚合各方数据搭建 数据仓库 联邦学习在联合计算建模的过程中 多方机构之间的数据是不会进行共享的 实
  • C++ ofstream和ifstrem

    原文出自 比特网 转载请保留原文链接 http soft chinabyte com database 460 11433960 sh ofstream是从内存到硬盘 ifstream是从硬盘到内存 其实所谓的流缓冲就是内存空间 在C 中
  • 【问题解决】ElasticSearch分页查询时数据顺序错乱/不一致的问题

    问题解决 ElasticSearch分页查询时数据顺序错乱 不一致的问题 问题描述 使用ElasticSearch分页查询时 每次输入同样的分页参数以及查询条件 得到的结果不一致的问题 问题分析 ElasticSearch中索引可能是由多个
  • mysql in 的两种用法

    简述MySQL 的in 的两种用法 他们分别是在 in 关键字后跟一张表 记录集 以及在in后面加上字符串集 先讲后面跟着一张表的 首先阐述三张表的结构 s sno sname sex age dept 学生信息表 c cno cname
  • 并发编程 三 synchronized

    多线程编程中 有可能会出现多个线程同时访问同一个共享 可变资源的情况 这个资源我们称之其为临界资源 这种资源可能是 对象 变量 文件等 由于线程执行的过程是不可控的 所以需要采用同步机制来协同对对象可变状态的访问 实际上 所有的并发模式在解
  • 双线性插值(超级易懂的)

    双线性插值 简介 在两个方向分别进行一次线性插值 首先在一个方向上使用线性插值 然后再在另一个方向上使用线性插值执行双线性插值 尽管每个步骤在采样值和位置上都是线性的 但是插值总体上不是线性的 而是在采样位置上是二次的 作用 一般用于重新采
  • 手把手带你用PyQt5做小型桌面应用

    导语 想制作属于自己的桌面应用程序吗 今天Disen带你手把手入门 桌面应用 什么是桌面应用 即在操作系统的可视化的桌面上 可以运行的程序 比如说QQ 微信 爱奇艺等这些都是桌面应用 早期开发桌面应用 都用哪些语言呢 桌面应用软件 在操作系
  • SpringMVC + ajaxfileupload的多文件上传

    最近做一个springmvc ajax多文件上传 倒腾了下 查阅了部分资料搞定了 现在分享 1 Spring mvc a xml配置
  • 线性代数的本质(Essense Of Linear Algebra)[1]

    论文转载自https blog csdn net wenzhunpu article details 77871631 最近学习了B站上一个关于线性代数的视频Essense Of Linear Algebra 主要从几何方面去讲解 非常形象
  • Hbase集成到Hadoop的一些注意事项

    安装 部署hadoop和hbase的文章网上已经很多了 这里说下自己安装 部署时遇到的 一些问题 1 hadoop env sh的文件里添加 export HADOOP CLASSPATH HBASE HOME hbase 0 20 3 j