如何使用 prometheus Alertmanager 在工作时间之外抑制警报？

2023-12-28

我们的应用程序依赖于仅在工作时间内活跃的数据源。我们在普罗米修斯中设置了警报，以便在溪流干涸时通知我们。但是，我们不希望在工作时间之外收到“错误”警报。

我跟着这个帖子 https://medium.com/@tom.fawcett/time-of-day-based-notifications-with-prometheus-and-alertmanager-1bf7a23b7695设置一个“假警报”，在工作时间之外触发，并应该抑制所有其他警报。

设置如下所示。在普罗米修斯中：

rules:

# This special alert will be used to inhibit all other alerts outside business hours
- alert: QuietHours
  expr: day_of_week() == 6 or day_of_week() == 0 or europe_amsterdam_hour >= 18 or europe_amsterdam_hour <= 7
  for: 1m
  labels:
    notification: page
    severity: critical
  annotations:
    description: 'This alert fires during quiet hours. It should be blackholed by Alertmanager.'

The europe_amsterdam_hour函数被定义为规则，为了简洁起见，本示例中省略了该函数。

在警报管理器中：

routes:
# ensure to forward to blackhole receiver during quiet hours
- match:
    alertname: QuietHours
  receiver: blackhole

inhibit_rules:
- source_match:
    alertname: QuietHours
  target_match_re:
    alertname: '[^(QuietHours)]'

我验证了触发 QuietHours 警报的逻辑正在工作。它在工作时间后很好地触发，并在工作时间解决。但是，抑制部分似乎不起作用，因为当 QuietHours 处于活动状态时我仍然会收到其他警报。我找不到对抑制配置有详细解释的好资源。

有什么想法我做错了吗？

问题在于您的目标 re，语法不正确。没有必要排除QuietHours如中所解释的抑制规则 https://prometheus.io/docs/alerting/configuration/#inhibit_rule文档。

为了防止警报抑制自身，与两者都匹配的警报规则的目标端和源端不能被警报抑制对于这也是如此（包括它本身）。

正则表达式应该简单地匹配与您的数据源相关的警报。

添加标签来识别与源相关的警报以抑制和使用它比使用警报名称更容易。

inhibit_rules:
- source_match:
    alertname: QuietHours
  target_match:
    component: 'data_source'

这样，任何与源相关的新警报都将被禁止。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Prometheus

prometheusalertmanager

如何使用 prometheus Alertmanager 在工作时间之外抑制警报？的相关文章

您是否尝试使用 kubernetes/configMap 将目录挂载到文件上（或反之亦然）？

我关注了这个帖子Kubernetes configMap 只有一个文件 https stackoverflow com questions 44325048 kubernetes configmap only one file将配置文件传递
邮递员到普罗米修斯和马车“\r”？第 1 行中的文本格式解析错误：预期浮点数作为值，得到“1\r”

只是试图通过邮递员向普罗米修斯添加新的指标但是得到第 1 行中的文本格式解析错误预期浮点数作为值得到 1 r 度量就像 test metric 1 不带引号为什么会发生这种情况以及如何将其从邮递员的请求中删除原因在于之间的差异
Grafana“Node Exporter Full”仪表板在导入后不显示任何数据

我正在尝试从这里导入节点导出器完整仪表板 https grafana com grafana dashboards 1860 https grafana com grafana dashboards 1860 但是当我导入仪表板时它什么也
Prometheus 中的最小 scrape_interval 是多少？

我想知道普罗米修斯的最短时间是多少scrape interval范围根据普罗米修斯文档 https prometheus io docs prometheus latest configuration configuration 此参数的
Prometheus 警报管理器不发送警报 k8s

我使用 Prometheus Operator 0 3 4 和警报管理器 0 20 但它不起作用即我看到警报被触发在警报选项卡上的 Prometheus UI 上但我没有收到任何电子邮件警报通过查看日志我看到以下内容知道吗请参
如何获取prometheus中（当前）建立的TCP连接数（kubernetes监控）

我在 Linux 中使用此命令来查看当前建立的 TCP 连接 netstat ant grep ESTABLISHED wc l 我如何将此命令转换为 PromQL 每个节点我在 kubernetes 集群中使用带有节点导出器的 pr
无法在 Spring Boot 2（版本 2.0.0.M7）中包含 Prometheus 指标

无法在 Spring Boot 2 版本 2 0 0 M7 项目中包含 Prometheus 指标根据千分尺文档 https micrometer io docs ref spring 2 0 prometheus added sprin
Prometheus Java 摘要指标是线程安全的吗？

普罗米修斯是Java吗Summary对象线程安全如果我在类中将其声明为静态则该类的所有实例都将使用它 Prometheus 是否为该度量对象实现了线程安全 Prometheus 客户端库负责处理方向检测的线程安全等细节例如Summar
Prometheus 来源的时间序列：如何将空值设置为零？

使用 Docker Grafana 8 1 5 使用时间序列图我正在绘制Prometheus Counter来源有一个label as a time series 按标签并且需要将所有空缺失值填充为零这是应用于的查询Prometh
PromQL if then 语句等效

我有一个执行计数的简单 PromQL 查询 sum up container name my container environment name env 这是 Grafana 仪表板的一部分允许从下拉菜单中选择 env 我想根据环境执行
禁用对特定主机的警报，同时对所有其他主机发出警报

我有数百台主机向普罗米修斯服务器报告我的每个主机有很多出口商我希望能够列出我不希望收到警报的主机列表我仍然需要对这些主机进行普罗米修斯监控我尝试过匹配没有接收器的路线这不起作用我究竟做错了什么或者说我应该怎么做我的路线规则
在普罗米修斯中找不到查询 label_values [关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案在 Grafana 文档中我发现我应该能够查询我的 Prometheus 服务器以获取使用以下命令提供监控数据的所有实例 lab
如何解决错误：java.lang.ClassNotFoundException：io.netty.util.concurrent.GenericFutureListener？

昨天我第一次尝试用 Java 制作 Prometheus 客户端从 Python 开始最后是 GoLang 是否找到示例 import io prometheus client Counter import io prometheus
PromQL：查询警报是否被静音

我已成功消除了当前已关闭节点的警报并且在我们有时间物理替换它之前会持续一段时间虽然我认为沉默会阻止警报在 Slack 通道中重新出现但我也想在我们在 Prometheus 之上运行的 Grafana 仪表板上删除它这是对 grafa
通过 kubernetes 标签或注释对 prometheus 目标进行分组？

我有两个关于普罗米修斯的问题我使用这个舵图 https artifacthub io packages helm prometheus community prometheus modal values https artifacthub
我试图根据 Prometheus 黑盒导出器的成功响应来计算 Grafana 的正常运行时间

我尝试计算probe success的数量并将其乘以探测间隔试图获得以秒为单位的正常运行时间并将值类型设置为总数问题是随着时间范围的变化最小步骤发生变化无法给我们正确的读数并使该选项无效我们实际上想做的是根据仪表板设置的时间范
如何在ubuntu中安装最新版本的prometheus/promtool？

我下载的prometheus版本是2 3 2 wget https github com prometheus prometheus releases download v2 3 2 prometheus 2 3 2 linux amd64
如何使用 re2 正则表达式否定字符串模式？

我正在使用谷歌re2 https github com google re2 wiki Syntax用于查询目的的正则表达式普罗米修斯 https prometheus io docs prometheus latest querying
使用 Prometheus 获取总磁盘空间和可用磁盘空间

我尝试获取 Kubernetes VM 上的总磁盘空间和可用磁盘空间以便可以显示其已占用空间的百分比我尝试了名称中包含文件系统的各种指标但没有一个显示正确的总磁盘大小应该使用哪一个来做到这一点这是我尝试过的指标列表 node
正则表达式对系列的普罗米修斯评分

我使用以下查询来根据名称获取一些指标 name bus listener processed 有多个指标与此名称匹配并且多个应用程序正在发布这些指标我正在尝试计算此费用 rate name bus listener processed

随机推荐

Haskell/Parsec：如何使用 Text.Parsec.Indent 中的函数？

我无法弄清楚如何使用其中的任何功能Text Parsec Indent http hackage haskell org packages archive indents latest doc html Text Parsec Indent
消息或具有 MessageContractAttribute 和其他不同类型参数的类型

我正在开发 WCF 服务其中一些类具有 MessageContract 属性有些则没有当我尝试运行服务时我收到以下错误消息无法加载操作 ProcessOperation 因为它具有 System ServiceModel Chan
无法从 JSON 反序列化 PyMongo ObjectId

我似乎无法使用 BSON 反序列化我的 MongoDB JSON 文档json util http api mongodb org python current api bson json util html json loads 函数令人
cpan 忽略 makepl_arg 和 mbuild_arg

我按照这个问题得票最多的答案中的说明进行操作如何将 CPAN 模块安装到本地目录中 https stackoverflow com questions 540640 how can i install a cpan module into
无法使用 autofac 注册结构体实例

我刚刚开始搬到Autofac from Unity我在尝试注册实例时遇到问题 public static void Register ContainerBuilder containerBuilder CancellationToken s
console.developers.google.com 与 appengine.google.com 有何不同？

谷歌云有https console developers google com https console developers google com 并且 App Engine 有http appengine google com htt
MockK - 为每个测试重新初始化模拟

我使用以下方法创建了一些模拟 val someService mockk
iPad 上的 UIActivityViewController

我一直在使用下面的代码来展示UIActivityViewController当我使用 Xcode 6 Swift 1 2 和 iOS 8 时它工作得很好但是当我更新时它显示UIActivityViewController但它完全是空
php中的十六进制数填充零

不知道我在这里做错了什么当我在十六进制数字前面填充零时它似乎改变了数字 number 1741 strtoupper dechex number output is 6CD sprintf 03x strtoupper dechex n
JavaScript 压缩

我正在寻找可以压缩JavaScript源代码的工具我发现一些网络工具只能删除空格字符但也许存在更好的工具可以压缩用户的函数名称字段名称删除未使用的字段等经常用来压缩 JS 代码的工具是YUI压缩器 http developer
LESS/SASS CSS 与缩小/优化相反？

我想知道我可以说 LESS SASS CSS 预处理器我认为他们被称为与缩小等优化相反我想知道是否会对性能产生明显的影响或者您认为易于开发更重要我问这个是因为 LESS CSS 生成的是类似的东西 body div1 div2 p
使用 SimpleXML 的 XML 声明标签

我开始使用带有注释的简单 XML 框架 link http simple sourceforge net download stream doc tutorial tutorial php namesoace 对于 Java 但我不明白如何
matplotlib 图例位置编号

我开始使用 Python 进行科学计算而且我真的很喜欢它但是我对 matplotlib pylab legend 函数的一个功能感到困惑特别是位置功能允许人们使用数字指定图例的位置遵循以下方案最好 0 右上角 1 左上 2 左下
如何将对象字符串解析为javascript对象？ [复制]

这个问题在这里已经有答案了我从数据库得到这个字符串 from 15 00 to 16 00 from 16 00 to 17 00 from 17 00 to 18 00 from 18 00 to 19 00 它是一个字符串在这种情况
在多个显示器上居中用户表单

我在网上搜索了一段时间确实找到了一些解决方案但似乎没有一个对我有帮助我在 Excel 2010 中有一个用户窗体我想将其置于 Excel 窗口的中心我有双显示器它似乎总是在两个显示器之间居中我知道您可以编辑一些属性例如 St
Objective-C 中如何改变鼠标光标

我正在制作一个图像编辑应用程序但如果没有像 Photoshop 中的画笔那样的光标它看起来非常不完整如何设置图标并在退出应用程序时将其更改回来这是我的头文件中的代码以防万一需要 interface test NSWindow
PHP：涉及爆炸键的映射数组[重复]

这个问题在这里已经有答案了在尝试使用多个 foreach 循环解决此问题后我仍然不知道如何映射 arr to arr mapped 我需要爆炸钥匙 arr获取最多具有三个要创建的新键的元素 arr mapped
通过两个模型来查看[重复]

这个问题在这里已经有答案了我是 mvc 新手并尝试通过用它做一个小项目来学习它我有一个页面应该显示特定日期的货币和天气所以我应该通过货币模型和天气模型我已经完成了通过货币模型并且工作正常但我不知道如何通过第二个模型大多数教程都
为什么 python MSAL 身份验证卡在 ConfidentialClientApplication 处？

我有这段 python 代码它在我的计算机上完美运行但当我在带有 Amazon Linux 的 EC2 上运行它时它会卡在这个函数中检查了所有网络和防火墙规则一切正常事实上如果我从我的 PC 获取令牌并尝试通过 cURL 直接
如何使用 prometheus Alertmanager 在工作时间之外抑制警报？

我们的应用程序依赖于仅在工作时间内活跃的数据源我们在普罗米修斯中设置了警报以便在溪流干涸时通知我们但是我们不希望在工作时间之外收到错误警报我跟着这个帖子 https medium com tom fawcett time of

如何使用 prometheus Alertmanager 在工作时间之外抑制警报？

如何使用 prometheus Alertmanager 在工作时间之外抑制警报？ 的相关文章

随机推荐

热门标签

如何使用 prometheus Alertmanager 在工作时间之外抑制警报？的相关文章