目标
Hadoop本身是对相当数量的指标(metrics)进行实时监控的。但是Hadoop本身并不提供方便快捷的方式进行实时查询。如果你和我一样想要实时监测Hadoop节点的相关指标(比如namenode和datanode的性能),那么本文档可能会适合你。
前提条件,你已经部署好了一个HDFS集群。
安装
在官网上下载最近稳定发行版本并解压
wget https://github.com/prometheus/prometheus/releases/download/v2.46.0/prometheus-2.46.0.linux-amd64.tar.gz
tar -zxvf prometheus-2.46.0.linux-amd64.tar.gz
mv prometheus-2.46.0.linux-amd64 prometheus
进入目录下,查看默认的配置文件promethues.yml
promethues自己会监控自己的一些指标,我们可以直接执行./promthues启动,然后在web查看9090端口
将hadoop的jmx信息采集到指定端口
我们发现promethues只能处理KV形式的metrics,所以如果我们想要监控Hadoop的性能,必须对Hadoop的指标监控进行预处理。已经存在开源工具帮助我们做这一步,笔者本文使用的是JMX Exporter,但是刚发现了更契合的工具hadoop_exporter,感兴趣的自行搜索。
下载JMX Exporter
wget https://repo1.maven.org/maven2/io/prometheus/jmx/jmx_prometheus_javaagent/0.19.0/jmx_prometheus_javaagent-0.19.0.jar
其绝对路径是/usr/local/prometheus/jmx_prometheus_javaagent-0.19.0.jar
创建一个配置文件/usr/local/prometheus/jmx/prometheus_config.yml
文件内容
rules:
- pattern: ".*"
修改hadoop-env.sh,添加如下两行
if ! grep -q <<<"$ROOT_DATANODE_OPTS" jmx_prometheus_javaagent; then
ROOT_DATANODE_OPTS="$ROOT_DATANODE_OPTS -javaagent:/usr/local/prometheus/jmx_prometheus_javaagent-0.19.0.jar=30002:/usr/local/prometheus/jmx/prometheus_config.yml"
fi
if ! grep -q <<<"$ROOT_NAME_NODE_OPTS" jmx_prometheus_javaagent; then
ROOT_NAMENODE_OPTS="$ROOT_NAMENODE_OPTS -javaagent:/usr/local/prometheus/jmx_prometheus_javaagent-0.19.0.jar=30001:/usr/local/prometheus/jmx/prometheus_config.yml"
fi
重启集群后发现30001,30002端口打开了
配置prometheus
修改/usr/local/prometheus/prometheus.yml
- job_name: "namenode"
static_configs:
- targets: ["localhost:30001"]
- job_name: "datanode"
static_configs:
- targets: ["localhost:30002"]
重启prometheus,成功采集
其他说明
在配置过程中难免会出现按照他人的文档无法复现的情况,建议查看日志和输出文件
以datanode为例,datanode运行期间的日志会写在/usr/local/hadoop/logs/hadoop-root-datanodex.log中,如果启动datanode进程失败,失败原因在log中也没有记录的话,可以查看/usr/local/hadoop/logs/hadoop-root-datanodex.out.x文件,可能会有帮助