大数据生态组件——Hive安装及配置

2023-11-03

Hive安装与配置

Hive简介
Hive的安装与配置（一）
Hive的启动
hive的元数据库
安装配置MySQL
MySQL的开机自启操作
配置hive（二）
初始化MySQL数据库
hive-shell的基本操作命令

以下安装配置均是在虚拟机环境下进行的（我使用的是centos）

Hive简介

HIve是一个基于hadoop的开源数据仓库工具，用于存储和处理海量的（半）结构化数据
Hive将海量的数据存储于hadoop文件系统，而不是数据库，但提供了一套类数据库的数据存储和处理机制，并采用HQL（类SQL）语言对这些数据进行自动化管理和处理，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制
Hive的本质是将SQL转换为SQL转换为MapReduce程序
Hive诞生于Facebook的日志分析需求，面对海量的结构化数据，Hive以较低的成本完成了以往需要大规模数据库才能完成的任务，并且学习门槛相对较低，应用开发灵活而高效。

Hive的安装与配置（一）

Hive不存在集群，Hive不用配置是伪分布式还是完全分布式模式，它只是一个客户端工具，可以运行在集群的任意一个节点上

下载解压apache-hive-2.3.3-bin.tar.gz到/usr/local
重命名文件夹为hive
修改所属组和所属用户（root环境下不需要这一步）
配置环境变量~/.bashrc

[hadoop@s0 ~]$ sudo tar -zxvf downloads/apache-hive-2.3.3-bin.tar.gz  -C  /usr/local/
[hadoop@s0 ~]$ cd /usr/local/
[hadoop@s0 local]$ sudo mv apache-hive-2.3.3-bin/ hive
[hadoop@s0 local]$ sudo chown -R hadoop:hadoop  hive
[hadoop@s0 ~]$ vi .bashrc
# 在.bashrc 中输入以下内容（前三行不是本次需要输入的内容）：
export JAVA_HOME=/usr/local/jdk
export HADOOP_HOME=/usr/local/hadoop
export SPARK_HOME=/usr/local/spark
export HIVE_HOME=/usr/local/hive  #输入此行

export PATH=$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$SPARK_HOME/bin:$HIVE_HOME/bin:$PATH

Hive的启动

启动hadoop集群（前面有博客介绍过，这里就不再介绍安装了）

[hadoop@s0 ~]$ start-all.sh   # Yarn必须要启动

启动Hive之前要先启动Hadoop集群，不能只启动HDFS文件系统，Yarn也需要启动，因为以后执行Hive语句的时候会转化为MapReduce任务

启动hive

[hadoop@s0 ~]$ hive

启动时会报错：不能建立元数据库的错误

在这里插入图片描述

hive的元数据库

hive中的元数据（Metastore）
- 元数据包括表的名字、表的列和分区及其属性、表的属性（是否为外部表等）、表的数据所在目录等。
- Hive 将元数据存储在关系型数据库中，目前只支持MySQL、Derby；原始的Hive默认使用Derby数据库
- 请注意区分，Hive存储的海量数据放在HDFS中，但是Hive自己的元数据放在关系型数据库中
- 元数据库默认使用内嵌的Derby数据库作为存储引擎；Derby引擎的缺点：一次只能打开一个会话
- 需要更换Hive的数据库为MySQL，使用MySQL作为外置存储引擎，支持多用户同时访问。

所以先要安装一下MySQL（本地方式），即MySQL数据库同hive安装在一个系统中。

安装配置MySQL

观察是否安装过MySQL

[hadoop@s0 ~]$ rpm -qa | grep -i mysql
mysql-libs-5.1.73-3.el6_5.x86_64

已存在mysql-libs-5.1.73-3.el6_5.x86_64的库（这是linux自带的）

在线安装MySQL

[hadoop@s0 ~]$ sudo yum install mysql-server

观察MySQL版本

[hadoop@s0 ~]$ mysql  -V  #是大写的V
mysql  Ver 14.14 Distrib 5.1.73, for redhat-linux-gnu (x86_64) using readline 5.1

观察MySQL是否正常运行

[hadoop@s0 ~]$ netstat -an | grep 3306
# 结果为空 证明没有运行

启动MySQL

[hadoop@s0 ~]$ sudo service mysqld  start  # service mysqld start/stop/restart
[sudo] password for hadoop: 
Starting mysqld:                                           [  OK  ]

[hadoop@s0 ~]$ netstat -an | grep 3306
tcp        0      0 0.0.0.0:3306                0.0.0.0:*                   LISTEN

进入和退出MySQL

[hadoop@s0 ~]$ mysql -uroot   #此root与Linux的root用户毫无关系；u和root之间可以有空格，也可以没有
Welcome to the MySQL monitor.  Commands end with ; or \g.
Your MySQL connection id is 6
Server version: 5.1.73 Source distribution
Copyright (c) 2000, 2013, Oracle and/or its affiliates. All rights reserved.
Oracle is a registered trademark of Oracle Corporation and/or its
affiliates. Other names may be trademarks of their respective
owners.
Type 'help;' or '\h' for help. Type '\c' to clear the current input statement.

mysql安装后会创建一个默认用户root，与linux的root用户无关
root用户默认没有密码

mysql> exit;  #MySQL数据库的命令输入时最后也要加分号
Bye

设置root用户密码

[hadoop@s0 ~]$ mysqladmin -uroot password 123456

以带密码的root用户身份登录

[hadoop@s0 ~]# mysql -uroot -p
Enter password:  #此处输入密码123456
Welcome to the MySQL monitor.  Commands end with ; or \g.
Your MySQL connection id is 23
Server version: 5.6.40 MySQL Community Server (GPL)
Copyright (c) 2000, 2018, Oracle and/or its affiliates. All rights reserved.
Oracle is a registered trademark of Oracle Corporation and/or its
affiliates. Other names may be trademarks of their respective
owners.
Type 'help;' or '\h' for help. Type '\c' to clear the current input statement.
mysql>

添加远程登录的用户hive及权限

mysql>GRANT all ON *.* TO hiver@'%' IDENTIFIED BY '123456';// *.*:所有库下的所有表   %：任何IP地址或主机都可以连接，此处的hiver是一个远程访问MySQL数据库的用户
mysql>GRANT all ON *.* TO hiver@'s0' IDENTIFIED BY '123456';
mysql> GRANT all ON *.* TO hiver@'localhost' IDENTIFIED BY '123456';
mysql>FLUSH PRIVILEGES; //让前3条命令生效

#可以使用下述命令删除用户及权限：
mysql >drop user hiver@'%';
mysql> drop user hiver@'s0';
mysql> drop user hiver@'localhost';

创建hive的元数据库名称为hive_metastore_db

mysql> create database hive_metastore_db;
Query OK, 1 row affected (0.00 sec)
#此数据库用于存放Hive的metastore元数据，即Hive的元数据存放在MySQL数据库中

显示数据库

mysql> show databases;

MySQL的开机自启操作

设置开机自启

[hadoop@s0 ~]$ sudo chkconfig mysqld on
[hadoop@s0 ~]$ chkconfig --list | grep mysql
mysqld         	0:off	1:off	2:on	3:on	4:on	5:on	6:off

配置hive（二）

配置hive-env.sh

将hive-env.sh.template复制一份为hive-env.sh
配置hive-env.sh

注意查看自己文件的位置，将自己的位置写上去

配置hive-site.xml

将/usr/local/hive/conf/hive-default.xml.template复制一份并重命名为hive-site.xml

[hadoop@s0 ~]$ cd /usr/local/hive/conf/
[hadoop@s0 conf]$ cp hive-default.xml.template   hive-site.xml #注意不是hive-default.xml
[hadoop@s0 conf]$ sudo vi hive-site.xml #虽然可以不用sudo，加上可以保证格式容易控制

原始的hive-default.xml.template中的配置

javax.jdo.option.ConnectionURL：数据库链接字符串。

在这里插入图片描述

javax.jdo.option.ConnectionDriverName：连接数据库的驱动包。

在这里插入图片描述

javax.jdo.option.ConnectionUserName：数据库用户名(默认是APP)。

在这里插入图片描述

javax.jdo.option.ConnectionPassword：连接数据库的密码。

修改为对应以下内容：

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
	<name>javax.jdo.option.ConnectionURL</name>
	<value>jdbc:mysql://s0:3306/hive_metastore_db</value>
</property>
<property>
	<name>javax.jdo.option.ConnectionDriverName</name>
	<value>com.mysql.jdbc.Driver</value>
</property>
<property>
	<name>javax.jdo.option.ConnectionUserName</name>
	<value>hiver</value>
</property>
<property>
	<name>javax.jdo.option.ConnectionPassword</name>
	<value>123456</value>
</property>
</configuration>

上传mysql-connector-java-5.1.38-bin.jar到$HIVE_HOME/lib

[hadoop@s0 downloads]$ sudo cp mysql-connector-java-5.1.38-bin.jar /usr/local/hive/lib/

观察此时的Hive的元数据库hive_metastore_db

mysql> use hive_metastore_db;
Database changed
mysql> show tables;
Empty set (0.00 sec)

此时Hive的元数据库hive_metastore_db的元数据库中没有表

重新给整个Hive目录授权（建议再做一遍授权操作）

[hadoop@s0 local]$ sudo chown -R hadoop:hadoop  hive

初始化MySQL数据库

[hadoop@s0 ~]$ cd /usr/local/hive/bin/
[hadoop@s0 bin]$ schematool -dbType mysql -initSchema

观察此时的Hive的元数据库hive_metastore_db

mysql> show databases;
+--------------------+
| Database           |
+--------------------+
| information_schema |
| hive_metastore_db  |
| mysql              |
| test               |
+--------------------+
4 rows in set (0.00 sec)

mysql> use hive_metastore_db;
Database changed

mysql> show tables;
+-----------------------------+
| Tables_in_hive_metastore_db |
+-----------------------------+
| BUCKETING_COLS              |
| CDS                         |
| COLUMNS_V2                  |
| DATABASE_PARAMS             |
| DBS                         |
……
29 rows in set (0.00 sec)

hive-shell的基本操作命令

启动hadoop集群
启动hive

hive> show databases;  #最后的分号必须有，为英文分号，风格与MySQL的命令类似
OK
default
Time taken: 2.832 seconds, Fetched: 1 row(s)

可以看到只有一个默认的数据库default

hive> show tables;
OK
Time taken: 1.23 seconds

hive> create database student;  #创建数据库student
hive> create database student;  #再次创建数据库student会报错
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Database student already exists

hive> create database if not exists student;
OK
Time taken: 0.048 seconds

hive> describe database student;
OK
student		hdfs://s0:9000/user/hive/warehouse/student.db	hadoop	USER	
Time taken: 0.073 seconds, Fetched: 1 row(s)


hive> use student;  #创建好的数据库要被使用，必须使用use命令

hive> create table stu(id int, name string);  #在数据库student中创建表stu
hive> show tables; #注意table是复数形式
OK
stu
Time taken: 0.101 seconds, Fetched: 1 row(s)

#显示表的结构
hive> desc stu;
OK
id                  	int
nam                string 	                    
Time taken: 0.263 seconds, Fetched: 1 row(s)

#插入一条记录，会启动MR作业
hive> insert into stu values(1,'zhangsan');


hive> insert into stu values(2,'lisi');

#只带*号的返回全部字段的查询不启动MR作业
hive> select * from stu;
OK
1	zhangsan
2	lisi
Time taken: 0.191 seconds, Fetched: 2 row(s)

#使用了排序子句 会启动MR作业
hive> select * from stu order by id desc;

hive> drop table stu; #删除表
hive> drop database student; #在Hive中删除数据库，必须要先删除数据库中的表才能删除数据库
hive> quit;

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

大数据技术与应用

数据库

分布式

大数据

Hadoop

大数据生态组件——Hive安装及配置的相关文章

将数据从 oracle 移动到 HDFS，处理并从 HDFS 移动到 Teradata

我的要求是将数据从 Oracle 移至 HDFS 处理HDFS上的数据将处理后的数据移至 Teradata 还需要每 15 分钟执行一次整个处理源数据量可能接近50GB 处理后的数据也可能相同在网上搜索了很多之后我发现 PRARO
猪的组连接等效吗？

试图在 Pig 上完成这个任务寻找 MySQL 的 group concat 等效项例如在我的表中我有以下内容 3fields userid clickcount pagenumber 155 2 12 155 3 133 155
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
HDFS 中的文件数量与块数量

我正在运行单节点 hadoop 环境当我跑的时候 hadoop fsck user root mydatadir block 我真的对它给出的输出感到困惑 Status HEALTHY Total size 998562090 B Tot
如何跟踪hadoop中哪个数据块在哪个数据节点？

如果复制一个数据块会复制到哪个数据节点是否有任何工具可以显示复制块存在的位置如果您知道文件名则可以通过 DFS 浏览器查找转到您的 namenode Web 界面说浏览文件系统并导航到您感兴趣的文件在页面底部将列出文件中
Hadoop 上的 Sqoop：NoSuchMethodError：com.google.common.base.Stopwatch.createStarted() [重复]

这个问题在这里已经有答案了我在 Google Cloud DataProc 上的 hadoop 上运行 sqoop 以通过 Cloud SQL 代理访问 postgresql 但遇到 Java 依赖项错误 INFO First Cloud
HBase、Hadoop：如何估计 HBase 表或 Hadoop 文件系统路径的大小？

我有多个 HBase 表如何估计在 java 中使用的表的大致大小一种方法是你必须使用java客户端访问hdfs 通常在 hbase文件夹所有表格信息将在场 Hadoop 外壳你可以检查使用hadoop fs du h path
Hive：在查询中将 array 转换为 array

我有两张桌子 create table a 1 array
Python 包安装：pip 与 yum，还是两者一起安装？

我刚刚开始管理 Hadoop 集群我们使用 Bright Cluster Manager 直至操作系统级别 CentOS 7 1 然后使用 Ambari 以及适用于 Hadoop 的 Hortonworks HDP 2 3 我不断收到安装
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts
如何强制 Spark 执行代码？

我如何强制 Spark 执行对 map 的调用即使它认为由于其惰性求值而不需要执行它我试过把cache 与地图调用但这仍然没有解决问题我的地图方法实际上将结果上传到 HDFS 所以它并非无用但 Spark 认为它是无用的简短回
Impala：如何查询具有不同模式的多个镶木地板文件

在 Spark 2 1 中我经常使用类似的东西 df spark read parquet path to my files parquet 即使具有不同的模式也可以加载镶木地板文件的文件夹然后我使用 SparkSQL 对数据帧执行一些
ETL informatica 大数据版（非云版）可以连接到 Cloudera Impala 吗？

我们正在尝试在 Informatica 大数据版本不是云版本上进行概念验证我发现我们可能能够使用 HDFS Hive 作为源和目标但我的问题是 Informatica 是否连接到 Cloudera Impala 如果是这样我们是否
错误 hive.HiveConfig：无法加载 org.apache.hadoop.hive.conf.HiveConf。确保 HIVE_CONF _DIR 设置正确

我正在尝试将数据从 sqoop 导入到 hive MySQL use sample create table forhive id int auto increment firstname varchar 36 lastname varch
AWS EMR 引导操作为 sudo

我需要更新 etc hosts适用于我的 EMR 集群 EMR AMI 4 3 中的所有实例整个脚本无非就是 bin bash echo e ip1 uri1 gt gt etc hosts echo e ip2 uri2 gt gt e
Hadoop 超立方体

嘿我正在启动一个基于 hadoop 的超立方体具有灵活的维度数有人知道这方面现有的方法吗我刚刚发现PigOLAP草图 http wiki apache org pig PigOLAPSketch 但没有代码可以使用它另一种方法是Z
通过Oozie命令行指定多个过滤条件

我正在尝试通过命令行搜索一些特定的 oozie 作业我使用以下语法进行相同的操作 oozie jobs filter status RUNNING status KILLED 但是该命令仅返回正在运行的作业而不是已杀死的作业需要帮助
匿名类上的 NotSerializedException

我有一个用于过滤项目的界面 public interface KeyValFilter extends Serializable public static final long serialVersionUID 7069537470113

随机推荐

js new Promise的基本用法

function easyShare config return new Promise resolve reject gt try if config true console log 11 config setTimeout gt re
2021秋招复习——CSS

目录文章目录选择器 float布局 position定位 flex布局水平垂直居中水平居中行内元素块级元素垂直居中行内元素块级元素 BFC 盒模型 CSS3动画回流重排和重绘响应式布局选择器选择器主要包括选择
matlab求解正负因子目标规划,matlab学习系列27多目标规划.docx

matlab学习系列27多目标规划 docx 27多目标规划一线性规划的局限性1线性规划要求所求解问题必须满足全部的约束而实际问题中并非所有约束都需要严格的满足 2线性规划只能处理单目标的优化问题从而对一些次目标只能转化为约束处理而
AngularJS 截取字符串

In HTML Template Binding 在HTML的模板绑定中 limitTo expression limitTo limit begin In JavaScript filter limitTo input limit beg
计算机开机键盘屏幕无反应,电脑开机后键盘显示器无反应怎么解决

电脑开机后主机灯正常有风扇和机器声音但是键盘显示器都没有反应这是怎么回事呢电脑开机后键盘显示器无反应怎么解决呢下面学习啦小编就为大家带来了解决电脑开机后键盘显示器无反应的方法电脑开机后键盘显示器无反应解决方法一开机状态下把鼠标
机器学习（五）：高斯朴素贝叶斯（基础篇）

机器学习五高斯朴素贝叶斯基础篇在高斯朴素贝叶斯中每个特征都是连续的并且都呈高斯分布高斯分布又称为正态分布图画出来以后像一个倒挂的钟以均值为轴对称如下图所示 GaussianNB 实现了运用于分类的高斯朴素贝叶斯算法特征
SQLyog出现错误代码1045

直接修改mysql的密码即可
Elasticsearch 常见的 8 种错误及最佳实践

Elasticsearch 社区有大量关于 Elasticsearch 错误和异常的问题深挖这些错误背后的原因把常见的错误积累为自己的实战经验甚至是工具不仅可以节省我们的开发和运维时间而且可以帮助确保 Elasticsearch 集
matlab批量读入dat数据，并将dat数据转换为tiff格式

将dat数据序号1 1500 读入matlab 并将其转换为 png格式代码参考如下 clear close all num 1500 待读入的dat数量 addpath K 科目2 2 train dat dat 文件夹 cd K 科
Nginx 使用---拒绝指定IP访问

一问题描述服务器可能会受到攻击者的恶意访问攻击者IP会不断的猜测路径上传文件木马或者进行短信消耗或者破解密码等等行为我们要做的是对这些恶意的访问IP进行拦截二 Nginx的日志格式因为首先一定是要查看日志的所以首先
Oracle入门笔记（六）——多表查询

多表查询 1 多表查询概览 2 基础多表查询 3 SQL99标准的外连接 4 Oracle自定义的外连接 5 SQL99标准的交叉连接 6 SQL99标准的自然连接 7 SQL99标准的内连接 8 子查询 9 union和intersect
刷爆 LeetCode 双周赛 100，单方面宣布第一题最难

上周末是 LeetCode 第 100 场双周赛你参加了吗这场周赛整体没有 Hard 题但是也没有 Easy 题第一题国服前百名里超过一半人 wa 很少见小彭的技术交流群 02 群来了公众号回复加群加入我们周赛概览 259
Python学习32：计算圆周率——无穷级数法

描述是个超越数圆周率的超越性否定了化圆为方这种尺规作图精确求解问题的可能性有趣的是可以用无穷级数表示左边的展式是一个无穷级数被称为莱布尼茨级数 Leibniz 这个级数收敛到 4 它通常也被称为格雷戈里莱布尼茨级数用以纪念莱
RabbitMQ的简单使用、轮询

视频地址首先创建一个工程首先创建一个空的工程在空的工程里面创建一个maven工程加入依赖
工具详解-sqlmap使用详解

sqlmap使用详解简介 sqlmap是一款基于python编写的渗透测试工具在sql检测和利用方面功能强大支持多种数据库一 SQLMap拖库 SQLMap可以完成注入点的发现数据库类型的确认 WebShell权限和路径的确认拖
JAVA异常详解

异常的定义异常就是有异于常态和正常情况不一样有错误出现在java中阻止当前方法或作用域的情况称之为异常异常的分类 Error 是程序中无法处理的错误表示运行应用程序中出现了严重的错误此类错误一般表示代码运行时JVM出现问题
java中Collection（集合）

文章目录集合 Collection 一集合的分类二集合的特点三集合的访问四 List 1 List 接口方法 2 List的实现方式 1 List接口提供的of 方法 2 ArrayLIst 3 LinkList 3 遍历Li
汇编语言(王爽第三版)实验八

实验八题目与个人思路分析下面的程序在运行前思考这个程序可以正确返回吗运行后再思考为什么是这种结果通过这个程序加深对相关内容的理解 assume cs codesg codesg segment mov ax 4c00h int
SAP 变更记录表 : CDHDR / CDPOS - 说明及使用

From 1 http blog sina com cn s blog 7dce1fac01014yp2 html 2 http www cnblogs com cnlmjer archive 2012 04 18 4099808 html
大数据生态组件——Hive安装及配置

Hive安装与配置 Hive简介 Hive的安装与配置一 Hive的启动 hive的元数据库安装配置MySQL MySQL的开机自启操作配置hive 二配置hive env sh 配置hive site xml 上传mysql co

大数据生态组件——Hive安装及配置

Hive安装与配置

Hive简介

Hive的安装与配置（一）

Hive的启动

hive的元数据库

安装配置MySQL

MySQL的开机自启操作

配置hive（二）

配置hive-env.sh

配置hive-site.xml

上传mysql-connector-java-5.1.38-bin.jar到$HIVE_HOME/lib

观察此时的Hive的元数据库hive_metastore_db

重新给整个Hive目录授权（建议再做一遍授权操作）

初始化MySQL数据库

hive-shell的基本操作命令

大数据生态组件——Hive安装及配置 的相关文章

随机推荐

热门标签

大数据生态组件——Hive安装及配置的相关文章