Dataproc 虚拟机内存和本地磁盘使用指标

2024-01-02

我正在尝试使用云指标监控 Dataproc 2.0 上的本地磁盘使用情况(百分比)。这对于监控 Spark 临时文件填满磁盘的情况非常有用。

默认情况下,Dataproc 似乎仅发送本地磁盘性能指标、CPU 等指标和集群级别 HDFS 指标,但不发送本地磁盘使用情况。

Dataproc 映像上似乎安装了 stackdriver 代理,但它没有运行,因此显然 Dataproc 使用不同的方式收集指标。我检查了 df 插件已启用/etc/stackdriver/collectd.conf。但是启动代理失败:

Jul 16 03:01:57 metrics-test-m systemd[1]: Starting LSB: start and stop Stackdriver Agent...
Jul 16 03:01:57 metrics-test-m stackdriver-agent[3829]: Starting Stackdriver metrics collection agent: stackdriver-agentThe instance has neither the application default credentials file nor the correct monitoring scopes; Exiting. ... failed!
Jul 16 03:01:57 metrics-test-m stackdriver-agent[3829]: not starting, configuration/credentials error. ... failed!
Jul 16 03:01:57 metrics-test-m stackdriver-agent[3829]:  (warning).
Jul 16 03:01:57 metrics-test-m systemd[1]: Started LSB: start and stop Stackdriver Agent.

是否可以以某种方式监控 Dataproc 中的本地磁盘使用情况并将指标推送到 Google Cloud Metrics?


谷歌云监控代理 https://cloud.google.com/monitoring/agent/monitoring安装在 Dataproc 集群虚拟机上,但默认情况下处于禁用状态。

您可以通过添加来启用它--properties dataproc:dataproc.monitoring.stackdriver.enable=true创建集群时。该代理收集来宾操作系统指标,包括内存和磁盘使用情况,以便您可以在云指标中查看它们。在此查看该属性doc https://cloud.google.com/dataproc/docs/concepts/configuring-clusters/cluster-properties.

顺便说一句,CPU 使用情况是由 GCE 在没有代理的情况下从 VM 主机收集的。但是对于内存和本地磁盘的使用情况,VM主机不了解它们,它们必须从来宾操作系统内部收集,因此它取决于代理。当您启用代理时,将有两种不同类型的 CPU 使用指标,一种(计算)来自 VM 主机角度,另一种(代理)来自来宾操作系统角度。

Pricing:这些指标是not free收费,检查云监控定价 https://cloud.google.com/monitoring#pricing定价。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Dataproc 虚拟机内存和本地磁盘使用指标 的相关文章

随机推荐