请问设置哪些prometheus监控和告警指标

要做电话告警和邮件告警,设置哪些指标比较合适。

根据我的经验,用来报警的监控指标一般分为3级:

1. 硬件层(磁盘使用率、CPU使用率、内存使用率)

2. 应用层(接口响应时间,接口可用性,进程是否存活,错误日志增量)

3. 业务层(由业务自定义并主动上报给运维部门,由业务方定义报警规则)

服务监控主要是下面两个方面

  1. 性能指标:QPS,响应时间
  2. 服务可用性:5XX数据和占比

服务器监控主要是:

  1. CPU负载、使用率
  2. 内存使用率
  3. 磁盘空间使用率