prometheus告警及故障时长统计问题

环境:prometheus-2.36.0.linux-amd64 + grafana-8.5.4
如何统计服务的在线时长,告警时长(包含所有的告警)和故障时长(比如只统计ping 和port 的告警,排除内存和cpu之类的告警),有什么软件或者脚本可以做到,谢谢各位,请发私信

实践证明,使用 Prometheus 自带插件 AlertManager 实现告警监控预警 非常方便,不仅支持 发送邮件,还可写扩展脚本 实现发送 阿里钉钉短消息 等。

以下博文很详细:

类似这样的:

img

开源项目https://github.com/feiyu563/PrometheusAlert

PrometheusAlert是开源的运维告警中心消息转发系统,支持主流的监控系统Prometheus、Zabbix,日志系统Graylog2,Graylog3、数据可视化系统Grafana、SonarQube。阿里云-云监控,以及所有支持WebHook接口的系统发出的预警消息,支持将收到的这些消息发送到钉钉,微信,email,飞书,腾讯短信,腾讯电话,阿里云短信,阿里云电话,华为短信,百度云短信,容联云电话,七陌短信,七陌语音,TeleGram,百度Hi(如流)等。

img